
学位论文简介
说话人日志技术在多说话人语音处理任务中发挥着关键作用,广泛应用于会议记录、多媒体索引等实际场景。然而,复杂声学环境下的混响干扰、语音重叠以及阵列结构变化等问题,严重制约了系统的准确性、鲁棒性与实时性。本文围绕基于麦克风阵列的说话人日志关键技术,针对声源定位、重叠语音检测、阵型无关的语音分离与低延迟在线日志建模等问题展开系统研究,主要研究内容与贡献如下:
(1)针对混响环境下声源定位精度下降的问题,本文研究了基于指向性麦克风阵列的DOA估计方法,建立了各向同性噪声场下的理论分析框架,并推导了其克拉美罗下界,并与全向麦克风阵列进行对比,揭示了指向性阵列在复杂声场中的定位优势。
(2)针对现有系统在重叠语音检测中的建模能力不足,提出一种基于复数频谱的空间特征学习方法。该方法结合空间感知模块与时频融合结构,联合建模相位与幅度信息,同时引入时频域感知机制以提升模型对短时重叠语音的辨识能力,有效增强了系统在重叠语音场景下的判别性能。
(3)针对说话人分离任务中阵列结构多样性与模型计算效率的双重挑战,设计了一种时间–频率双路径结构的多通道语音分离方法。通过注意力机制实现跨域融合,并引入层次化压缩策略降低特征维度,同时结合虚拟麦克风估计与通道扰动机制,实现阵列几何无关的鲁棒建模。
(4)针对实时语音交互场景对低时延与高识别精度的双重需求,提出一种融合空间建模的在线说话人日志方法SDL-TS-VAD。该方法利用空间字典学习与幅度加权融合机制,在多通道复数频谱中提取方向与能量兼具的空间特征,实现低延迟条件下更精准的说话人检测。
主要学术成果
[1] W. Chen, J. Yang, X. Zhong, E. S. Chng, and M. Cai, “Enhancing Overlapped Speech Detection and Speaker Counting With Spatially-Infused Spectro-Temporal Conformer,” IEEE Transactions on Audio, Speech and Language Processing, vol. 33, pp. 1307–1323, 2025. (SCI,第一作者)
[2] W. Chen, T. T. Anh, X. Zhong, and E. S. Chng, “Enhancing Low-Latency Speaker Diarization with Spatial Dictionary Learning,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, 2024, pp. 11371–11375. (EI,第一作者)
[3] W. Chen, J. Zhang, J. Yang, E. S. Chng, and X. Zhong, “UniArray: Unified Spectral-Spatial Modeling for Array-Geometry-Agnostic Speech Separation,” IEEE Signal Processing Letters, 2025. (SCI,第一作者)
[4] W. Chen, C. Xue, and X. Zhong, “Cramér-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant Environments,” in Interspeech, 2021, pp. 2172–2176. (EI,第一作者)
[5] W. Chen, V. T. Pham, E. S. Chng, and X. Zhong, “Overlapped Speech Detection Based on Spectral and Spatial Feature Fusion,” in Interspeech, 2021, pp. 4189–4193. (EI,第一作者)