张博麟博士生预答辩公告-湖大信息科学与工程学院

我的位置在：首页 > 答辩公告 > 正文

张博麟博士生预答辩公告

浏览次数:日期：2024-03-15编辑：

学位论文简介

随着云计算和移动互联技术的迅速发展，文本-视觉跨模态检索方法备受关注。本研究逐步深化，首先关注文本-图像检索，致力于建立文本和图像之间的有效联系以提高检索精度。随后，扩展至文本-视频片段检索，专注于准确定位视频中特定片段的起始和结束时间，为视频监控和检索领域提供支持。研究层层递进，从文本-图像检索到文本-视频片段检索，推动跨模态文本-视觉检索方法的创新发展。取得了以下主要创新性研究成果：

(1) 针对结构化文本-图像检索中计算成本高和跨模态交互不足问题，提出了基于Transformer的文本编码器和细粒度对比学习方法。通过串联文本并使用共享的文本编码器，降低内存使用并提高特征编码效率，同时引入细粒度对比学习来捕捉图像和文本的对应关系，在Recipe1M数据集上的实验证明了方法的有效性。

(2) 针对有监督文本-视频片段检索中的性能和计算成本平衡问题，提出了双通道定位网络。该网络在双通道特征图上编码候选视频片段之间的时间关系，以提高模型性能，并在两个数据集上验证了方法的有效性。

(3) 针对有监督文本-视频片段检索中跨模态交互不足问题，提出了多层次对比学习的时序定位网络。通过衡量查询和各个视频粒度之间的互信息，加强模态对齐并学习判别性特征表示，同时引入自监督循环一致性损失，提高语义对齐。在三个数据集上的实验证明了方法有效性。

(4) 针对弱监督文本-视频片段检索方法中时序提案质量低、难以区分不对齐片段和缺乏模型稳定性的问题，提出了多提案协同和多任务训练机制。通过生成多个提案和合并高质量正样本掩码，突出相关视频片段，同时引入正向和反向掩码查询重构任务，加强约束以提高检索性能。在两个数据集上的实验证明了方法有效性。

主要学术成果

[1] Bolin Zhang, Chao Yang, Bin Jiang, and Xiaokang Zhou. Video Moment Retrieval with Hierarchical Contrastive Learning. In Proceedings of the 30th ACM International Conference on Multimedia. 2022: 346-355. （CCF A类推荐会议，第一作者）

[2] Bolin Zhang, Bin Jiang, Chao Yang, and Liang Pang. Dual-channel localization networks for moment retrieval with natural language. In Proceedings of the 2022 International Conference on Multimedia Retrieval. 2022: 351-359. (CCF B类推荐会议，第一作者)

[3] Bolin Zhang, Haruya Kyutoku, Keisuke Doman, Takahiro Komamizu, Chao Yang, Bin Jiang, Ichiro IDE. Cross-modal Recipe Retrieval based on Unified Transformer with Fine-grained Contrastive Learning. IEEE Transactions on Multimedia. (SCI一区，Major Revision，第一作者)

[4] Bolin Zhang, Chao Yang, Bin Jiang, Takahiro Komamizu, Ichiro IDE. Multi-proposal Collaboration and Multi-task Training for Weakly-supervised Video Moment Retrieval. International Journal of Machine Learning and Cybernetics. (SCI三区，Under Review，第一作者)