
学位论文简介
情感是人类认知与社会交互中的核心心理状态,多模态情感识别通过融合语音、文本与视觉等信息,实现对情感的自动理解,在智能交互与心理健康分析等领域具有广泛应用前景。然而,现有方法多依赖模态完备与固定结构等理想化假设,难以适应真实环境中“可变模态”特性,即模态组成与可用性动态变化,表现为模态缺失、信息冗余及模态扩展等问题,对模型的泛化能力、鲁棒性与可扩展性提出了更高要求。
围绕多模态条件下的可变模态情感识别问题,本文从评测基准、表示学习、鲁棒建模及模态扩展四个方面开展系统研究:
(1)针对缺乏统一评测标准及模型跨场景能力认知不足的问题,构建副语言多任务评测基准。通过统一模型结构、数据处理流程与评测指标,对主流预训练语音模型在多任务、多数据集条件下的性能进行系统评估,并从任务时间尺度、跨语料泛化能力及层级表示利用等方面分析模型行为,为表示学习方法设计提供依据。
(2)针对多层表示选择不稳定问题,提出多层表示自适应选择方法。通过门控机制对不同层特征进行重要性建模与动态加权,实现判别性信息的自适应筛选,并结合混合专家结构对多模态表示进行条件化建模,从而提升情感语义刻画能力与跨场景泛化性能。
(3)针对模态缺失与信息冗余问题,提出鲁棒多模态情感识别框架。该方法基于条件计算思想,通过模态感知门控实现对输入模态组合及缺失状态的动态建模,并结合自适应信息筛选策略抑制冗余信息,同时引入缺失模态补偿与知识蒸馏机制,提升模型在不完备输入条件下的稳定性与泛化能力。
(4)针对新模态难以灵活扩展的问题,提出参数高效的模态扩展方法。在冻结主干模型参数的前提下,通过模态条件提示实现新增模态的信息引入,并利用注意力重分配机制动态调整各模态贡献,从而在无需重训练全模型的情况下实现新模态的高效接入与协同建模。
实验结果表明,所提出方法在多个公开数据集上均取得稳定性能提升,其中多层表示建模平均提升超过1.6%,在模态缺失场景下提升约0.4%–1.2%,极端缺失条件下最高提升超过3%,在模态扩展场景中最高提升约1.3%。研究结果验证了方法在可变模态环境下的有效性与实用价值。
主要学术成果
[1] Zixing Zhang, Weixiang Xu, Zhongren Dong, Kanglin Wang, Yimeng Wu, Jing Peng, Runming Wang, Dong-Yan Huang. ParaLBench: A large-scale benchmark for computational paralinguistics over acoustic foundation models [J]. IEEE Transactions on Affective Computing, 2024, 16, 1290-1306. (中科院 SCI 1,导师一作,本人二作)
[2] Weixiang Xu, Zhongren Dong, Jing Peng, Runming Wang, Zixing Zhang. BAHBench: A Unified Benchmark for Evaluating Bio-Acoustic Health With Acoustic Foundation Models [J]. IEEE Journal of Biomedical and Health Informatics, 2025, 29, 4897-4909. (中科院 SCI 1,本人一作)
[3] Weixiang Xu, Zhongren Dong, Runming Wang, Xinzhou Xu, Zixing Zhang. GateM2Former: Gated Feature Selection and Expert Modeling in Multimodal Emotion Recognition [C]. IEEE International Conference on Acoustics, Speech and Signal Processing, 2025, 1-5 (中国计算机学会CCF-B,本人一作)
[4] Weixiang Xu, Zhongren Dong, Runming Wang, Huan Zhao, Zixing Zhang. RoMER: A Robust Multimodal Emotion Recognition Framework with Missing-Modality Experts and Adaptive Token Computation [J]. Information Fusion. (投稿中,中科院 SCI 1,本人一作)
[5] Weixiang Xu, Cheng Zhu, Haotian Guo, Zhongren Dong, Runming Wang, Zixing Zhang. MEP-ARAS: Enabling Modality Expansion in Multimodal Emotion Recognition via Prompted Token Selection and Attention Shifting. ACM International Conference on Multimedia (投稿中,中国计算机学会CCF-A,本人一作)