学术报告
我的位置在: 首页 > 学术报告 > 正文
音频文本交叉模态生成
浏览次数:日期:2023-08-03编辑:信科院 科研办

报告人:王文武,英国萨里大学教授 ,萨里人类中心AI资深研究员

报告时间:2023年85 15:30

报告地点:信息科学与工程学院 624


报告摘要:音频和文本的交叉模态生成已经成为音频信号处理和自然语言处理的重要研究领域。音频到文本的生成,也称为自动音频字幕生成,旨在为音频剪辑提供有意义的语言描述。这可用于帮助听力障碍者理解环境声音,促进多媒体内容的检索,并为安全监控分析声音。文本到音频生成旨在基于文本提示生成音频剪辑,该文本提示是音频内容的语言描述。这可用作电影制作、游戏设计、虚拟现实/元宇宙、数字媒体的声音合成工具,以及视觉障碍人士文本理解的数字助手。为了实现交叉模态音频文本生成,必须理解音频剪辑中的音频事件和场景,以及解释自然语言中呈现的文本信息。此外,学习这两个信息流的映射和对齐非常重要。最近在自动音频文本交叉模态生成领域出现了令人兴奋的发展。在本次演讲中,我们将介绍该领域,包括问题描述、潜在应用、数据集、挑战、最近的技术进展和可能的未来研究方向。


报告人简介:王文武是英国萨里大学视觉语音和信号处理中心机器听觉实验室的机器学习和信号处理教授,也是萨里人类中心人工智能研究所的AI资深研究员。他目前的研究兴趣包括信号处理、机器学习和感知、人工智能、机器听觉(听力)和统计异常检测。他在这些领域撰写了300多篇论文。他曾担任30多个研究项目的主要或联合调查员,这些项目由英国和欧盟研究委员会以及行业(如BBC、NPL、三星、腾讯、华为、萨博、Atlas和Kaon)资助。

王文武是15项奖项的(合作)作者或(合作)获奖者,其中包括2022年IEEE信号处理学会最佳青年作者论文奖、ICUAS 2021最佳论文奖、DCASE 2020评委奖、DCASE 2019和2020可重现系统奖、LVA/ICA 2018最佳学生论文奖、FSDM 2016最佳口头报告奖和Dstl Challenge 2012最佳解决方案奖。

他是IEEE/ACM音频语音和语言处理交易的副编辑,(Nature) Scientific Report的副编辑,以及Frontier in Signal Processing的专业编辑。他曾担任IEEE信号处理学会(SPS)技术指南委员会的董事会成员,IEEE SPS信号处理机器学习技术委员会的当选主席,EURASIP关于声学语音和音乐信号处理的技术领域委员会的副主席,IEEE SPS信号处理理论和方法技术委员会的当选会员,以及潜在变量分析和信号分离的国际指导委员会的当选成员。他曾担任INTERSPEECH 2022的卫星研讨会联合主席,IEEE ICASSP 2019的出版物联合主席,IEEE MLSP2013的本地安排联合主席,以及IEEE SSP 2009的公共关系联合主席。


邀请人:钟雄虎


联系人:刘玉玲