
学位论文简介
在远程医疗、社区筛查与居家健康管理等场景中,基于语音的心理健康状态检测具有非侵入、低成本和易连续采集等优势,但仍面临表征信息易损失、语音—文本协同不足、长时语音建模开销较大以及端侧部署受限等问题。本文围绕“表征—融合—架构—部署”主线开展研究,主要内容如下:
(1) 针对语音心理表征缺少统一评估依据、低码率压缩易损伤病理相关线索的问题,构建统一表征评估基准,并提出语义锚点离散表征方法 SACodec,提升压缩条件下语义与声学信息保持能力。
(2) 针对语音—文本联合建模中强模态主导、弱模态贡献受抑制的问题,提出动态多模态知识蒸馏框架 DMMKD,自适应协调跨模态与模态内蒸馏,缓解模态不平衡。
(3) 针对长时心理访谈语音中自注意力计算复杂度高、推理效率受限的问题,提出层级化无注意力网络 HAFFormer,通过多尺度卷积与层级下采样提高长时语音建模效率。
(4) 针对端侧轻量模型表达能力不足、部署资源受限的问题,提出结构重参数化方法 HRF,通过训练阶段高秩扩展与推理阶段等价折叠,在不增加推理成本的前提下提升模型性能。
主要学术成果
[1] Dong Z, Wang B, Han J, et al. SACodec: Asymmetric Quantization with Semantic Anchoring for Low-Bitrate High-Fidelity Neural Speech Codecs[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2026, 40(36): 30539-30547. (CCF A会, 第一作者)
[2] Dong Z, Guo H, Xu W, et al. Foundation Model-Based Evaluation of Neuropsychiatric Disorders: A Lifespan-Inclusive, Multi-Modal, and Multi-Lingual Study[J]. IEEE Journal of Selected Topics in Signal Processing, 2025. (中科院一区, 第一作者)
[3] Dong Z, Xu W, Xu X, et al. Modality Imbalance? Dynamic Multi-Modal Knowledge Distillation in Automatic Alzheimer's Disease Recognition[J]. IEEE Journal of Biomedical and Health Informatics, 2025. (中科院一区, 第一作者)
[4] Dong Z, Zhang Z, Xu W, et al. Hafformer: A hierarchical attention-free framework for Alzheimer’s disease detection from spontaneous speech[C]//ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024: 11246-11250. (CCF B会, 第一作者)
[5] Zhang Z, Dong Z, Xu W, et al. Reparameterization of lightweight transformer for on-device speech emotion recognition[J]. IEEE Internet of Things Journal, 2024, 12(4): 4169-4182. (中科院一区, 导师第一作者)
[6] Dong Z, Wang D, Chen C, et al. MHSDB: A comprehensive benchmark for multimodal humor and sarcasm detection leveraging foundation models[C]//ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2025: 1-5. (CCF B会, 第一作者)
[7] 董忠仁, 张子兴. 基于无注意力和分层模型的阿尔兹海默氏症检测方法 [C]//第十八届全国人机语音通讯学术会议. 2023. (CCF C会, 第一作者,最佳论文)