学位论文简介
如今,随着移动互联网和视频共享平台的普及,视频数据正呈指数级增长。为了满足用户在海量视频数据中准确、高效地检索感兴趣的视频,跨模态视频检索任务已成为学术和工业界的研究热点。本文所研究的跨模态视频检索任务旨在根据给定的文本查询,在视频库中检索出与之语义相关的视频序列。随着深度学习技术的迅速发展,跨模态视频检索的研究取得了显著进展。然而,由于视频内容的复杂性以及跨模态数据之间的异构性,跨模态视频检索的研究仍然存在一些亟待解决的问题。
本文的主要工作和创新点概括如下:
针对增强模态间的细粒度关系理解问题,提出一种对抗性多粒度嵌入网络AME-Net。AME-Net
利用视频中的细粒度的局部关系和粗粒度的全局特征作为整个视频的表征,并将对抗学习策略整合到嵌入网络中,以进一步减小文本和视频表征之间的模态差异。
针对增强跨模态间的语义对齐问题,提出一种细粒度跨模态的对齐网络FCA-Net。FCA-Net考虑了视频中的视觉语义单元和句子中的短语之间的相互作用,以实现跨模态间的语义对齐。
针对增强跨模态间的时序依赖问题,提出一种事件激活Transformer模型EAT。EAT通过在视觉Transformer的注意力块上使用显著性来检测视频帧之间的事件激活区域,实现学习视频事件中与用户搜索意图相关的时序依赖。
针对平衡检索精度和效率问题,提出一种基于元优化帧的跨模态视频检索方法MOF。MOF通过设计一种基于双层优化程序的创新构想,将视频自适应压缩成更少且更具代表性的帧。
主要学术成果
Ning Han, J. Chen, G. Xiao, H. Zhang, Y. Zeng, and H. Chen. Fine-grained Cross-modal Alignment Network for Text-Video Retrieval, ACM International Conference on Multimedia (ACM MM), 2021. (CCF A类会议)
Ning Han, J. Chen, H. Zhang, H. Wang, and H. Chen. Adversarial Multi-Grained Embedding Network for Cross-Modal Text-Video Retrieval, ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2022. (CCF B类期刊)
Y. Zeng, K. Pan, Ning Han. RewardTLG: Learning to Temporal Language Grounding from Flexible Reward, ACM SIGIR Conference on Research and Development in Information Retrieval (ACM SIGIR), 2023. (CCF A类会议)
Ning Han, X. Yang, E. Lim, H. Chen, and Q. Sun. Efficient Cross-Modal Video Retrieval with Meta- Optimized Frames, IEEE Transactions on Multimedia (TMM) , 2022. (CCF B类期刊, Major Revision)
Ning Han, J. Chen, G. Xiao, Y. Zeng, C. Shi, and H. Chen. BiC-Net: Learning Efficient Spatio-Temporal Relation for Text-Video Retrieval, ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2022. (CCF B类期刊,Major Revision)