答辩公告
我的位置在: 首页 > 答辩公告 > 正文
陈维广博士生预答辩公告
浏览次数:日期:2025-04-23编辑:

学位论文简介

说话人日志技术在多说话人语音处理任务中发挥着关键作用,广泛应用于会议记录、多媒体索引等实际场景。然而,复杂声学环境下的混响干扰、语音重叠以及阵列结构变化等问题,严重制约了系统的准确性、鲁棒性与实时性。本文围绕基于麦克风阵列的说话人日志关键技术,针对声源定位、重叠语音检测、阵型无关的语音分离与低延迟在线日志建模等问题展开系统研究,主要研究内容与贡献如下:

1)针对混响环境下声源定位精度下降的问题,本文研究了基于指向性麦克风阵列的DOA估计方法,建立了各向同性噪声场下的理论分析框架,并推导了其克拉美罗下界,并与全向麦克风阵列进行对比,揭示了指向性阵列在复杂声场中的定位优势。

2)针对现有系统在重叠语音检测中的建模能力不足,提出一种基于复数频谱的空间特征学习方法。该方法结合空间感知模块与时频融合结构,联合建模相位与幅度信息,同时引入时频域感知机制以提升模型对短时重叠语音的辨识能力,有效增强了系统在重叠语音场景下的判别性能。

3)针对说话人分离任务中阵列结构多样性与模型计算效率的双重挑战,设计了一种时间频率双路径结构的多通道语音分离方法。通过注意力机制实现跨域融合,并引入层次化压缩策略降低特征维度,同时结合虚拟麦克风估计与通道扰动机制,实现阵列几何无关的鲁棒建模。

4)针对实时语音交互场景对低时延与高识别精度的双重需求,提出一种融合空间建模的在线说话人日志方法SDL-TS-VAD。该方法利用空间字典学习与幅度加权融合机制,在多通道复数频谱中提取方向与能量兼具的空间特征,实现低延迟条件下更精准的说话人检测。

 

主要学术成果

  1. W. Chen, J. Yang, X. Zhong, E. S. Chng, and M. Cai, “Enhancing Overlapped Speech Detection and Speaker Counting With Spatially-Infused Spectro-Temporal Conformer,” IEEE Transactions on Audio, Speech and Language Processing, vol. 33, pp. 1307–1323, 2025. (SCI,第一作者)

  2. W. Chen, T. T. Anh, X. Zhong, and E. S. Chng, “Enhancing Low-Latency Speaker Diarization with Spatial Dictionary Learning,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, 2024, pp. 11371–11375. (EI,第一作者)

  3. W. Chen, J. Zhang, J. Yang, E. S. Chng, and X. Zhong, “UniArray: Unified Spectral-Spatial Modeling for Array-Geometry-Agnostic Speech Separation,” IEEE Signal Processing Letters, 2025. (SCI,第一作者)

  4. W. Chen, C. Xue, and X. Zhong, “Cramér-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant Environments,” in Interspeech, 2021, pp. 2172–2176. (EI,第一作者)

  5. W. Chen, V. T. Pham, E. S. Chng, and X. Zhong, “Overlapped Speech Detection Based on Spectral and Spatial Feature Fusion,” in Interspeech, 2021, pp. 4189–4193. (EI,第一作者)