答辩公告
我的位置在: 首页 > 答辩公告 > 正文
张博麟博士生预答辩公告
浏览次数:日期:2024-03-15编辑:

学位论文简介

随着云计算和移动互联技术的迅速发展,文本-视觉跨模态检索方法备受关注。研究逐步深化,首先关注文本-图像检索,致力于建立文本和图像之间的有效联系以提高检索精度。随后,扩展至文本-视频片段检索,专注于准确定位视频中特定片段的起始和结束时间,为视频监控和检索领域提供支持。研究层层递进,从文本-图像检索到文本-视频片段检索,推动跨模态文本-视觉检索方法的创新发展。取得了以下主要创新性研究成果:

(1) 针对结构化文本-图像检索中计算成本高和跨模态交互不足问题,提出了基于Transformer的文本编码器和细粒度对比学习方法。通过串联文本并使用共享的文本编码器,降低内存使用并提高特征编码效率,同时引入细粒度对比学习来捕捉图像和文本的对应关系,在Recipe1M数据集上的实验证明了方法的有效性。

(2) 针对有监督文本-视频片段检索中的性能和计算成本平衡问题,提出了双通道定位网络。该网络在双通道特征图上编码候选视频片段之间的时间关系,以提高模型性能,并在两个数据集上验证了方法的有效性。

(3) 针对有监督文本-视频片段检索中跨模态交互不足问题,提出了多层次对比学习的时序定位网络。通过衡量查询和各个视频粒度之间的互信息,加强模态对齐并学习判别性特征表示,同时引入自监督循环一致性损失,提高语义对齐。在三个数据集上的实验证明了方法有效性。

(4) 针对弱监督文本-视频片段检索方法中时序提案质量低、难以区分不对齐片段和缺乏模型稳定性的问题,提出了多提案协同和多任务训练机制。通过生成多个提案和合并高质量正样本掩码,突出相关视频片段,同时引入正向和反向掩码查询重构任务,加强约束以提高检索性能。在两个数据集上的实验证明了方法有效性。

主要学术成果

[1] Bolin Zhang, Chao Yang, Bin Jiang, and Xiaokang Zhou. Video Moment Retrieval with Hierarchical Contrastive Learning. In Proceedings of the 30th ACM International Conference on Multimedia. 2022: 346-355. CCF A类推荐会议,第一作者)

[2] Bolin Zhang, Bin Jiang, Chao Yang, and Liang Pang. Dual-channel localization networks for moment retrieval with natural language. In Proceedings of the 2022 International Conference on Multimedia Retrieval. 2022: 351-359. (CCF B类推荐会议,第一作者)

[3] Bolin Zhang, Haruya Kyutoku, Keisuke Doman, Takahiro Komamizu, Chao Yang, Bin Jiang, Ichiro IDE. Cross-modal Recipe Retrieval based on Unified Transformer with Fine-grained Contrastive Learning. IEEE Transactions on Multimedia.  (SCI一区,Major Revision,第一作者)

[4] Bolin Zhang, Chao Yang, Bin Jiang, Takahiro Komamizu, Ichiro IDE. Multi-proposal Collaboration and Multi-task Training for Weakly-supervised Video Moment Retrieval. International Journal of Machine Learning and Cybernetics. (SCI三区,Under Review,第一作者)