答辩公告
我的位置在: 首页 > 答辩公告 > 正文
罗曙博士生预答辩公告
浏览次数:日期:2026-05-11编辑:

学位论文简介

当前,移动互联网技术与视频分享平台的广泛普及推动视频数据规模呈现指 数级增长。为满足用户在海量视频资源中精准、高效检索目标视频片段的实际需求,跨模态视频片段定位已成为多媒体分析与人工智能领域的重要研究方向。本文聚焦的跨模态视频片段定位任务,旨在依据输入的自然语言查询,在未修剪视频中自动定位与查询语义高度相关的视频时序区间及目标主体。该技术在智慧教 育、智能生活、社会公共安全等场景中具备广泛的应用潜力,拥有重要的理论研究价值与实际应用意义。 深度学习技术的快速迭代与广泛应用显著推动了跨模态视频定位领域的研究 进展与性能提升。尽管如此,视频内容本身所具备的时序复杂性、场景多样性, 以及视觉与文本跨模态数据间固有的异构性差异,仍使得跨模态视频定位任务面 临诸多尚未有效解决的关键技术难题。首先,由于自然语言查询和视频内容固有 的复杂性和可变性,实现精确的时空视频基础仍然是一个重大挑战,以前的方法往往存在跨模态交互有限和特征表示不足的问题。其次,现有的弱监督视频片段时空定位方法以多实例学习为主导,为每个帧构建一个包,然而这种方法可能会 导致误报帧,因为并非所有帧都必须对应于查询语句。最后,大型语言模型已被 应用于视频片段定位,但它仍然存在复杂的提示设计和多轮问答,远未实现自动化。为了解决上述问题,本文提出以下解决方案:

(1) 基于跨模态理解和增强的视频片段时空定位方法。针对现有全监督方法 在特征提取时的丢失,以及忽略了时间特征与空间特征相互关系的问题,提出了一种端到端的解决方案即基于跨模态理解和增强的方法。该方案引入了一种时空对比学习方法,该方法能够从时间和空间维度增强视觉和文本模态的表征学习结果。

(2) 基于单帧标注的弱监督视频片段时空定位方法。针对现有弱监督方法存在假正例和区域判别问题,提出了一种基于单帧标注的弱监督视频时空定位方法,该方法构建了一个时空多实例学习的框架。该框架构建了一个时空多实例学习的框架,为选择的标注帧赋予最高权重且其他每个帧根据高斯分布进行权重赋予,使得更容易将靠近标注帧的视频帧识别为正样例,而将远离标注帧的框架识别为正样例则更加困难。

(3) 基于大语言模型自动生成的视频片段定位方法。为了解决多模态大模型 进行视频片段定位严重依赖于复杂的提示设计和多轮交无法实现一个自动化过程的问题,提出了基于大模型自动生成的视频片段定位方法。该方法提出了一个全新的自回归框架,通过人类反馈强化学习进行增强。该方法使大模型接收固定的提示模板后,生成对于视频片段的描述文本以及对应的起始和终止时刻。

主要学术成果:

[1] Shu Luo, Jingyu Pan, Da Cao, Jiawei Wang, Yuquan Le, Meng Liu.  Spatial–temporal video grounding with cross-modal understanding and enhancement. Expert Systems With Applications, 2025, 271: 126650. (SCI一区, 本人第一作者)

[2] Shu LuoShijie JiangDa Cao, Huangxiao DengJiawei WangZheng Qin. Weakly-Supervised Spatial-Temporal Video Grounding via Spatial-Temporal Annotation on a Single Frame. Knowledge-Based Systems, 2025, 314: 113200. (SCI一区, 本人第一作者)

[3] Luo, Shu and Ma, Qiwei and Wang, Jiawei and Cao, Da and Lu, Shaofei. AutoVMR: An Autonomous Event Generation and Localization Approach for Video Moment Retrieval, 2025, : 122615. (SCI二区,本人第一作者)