答辩公告
我的位置在: 首页 > 答辩公告 > 正文
王松博士生预答辩公告
浏览次数:日期:2021-10-06编辑:研究生秘书

学位论文简介

随着近年来互联网搜索引擎和社交平台上海量多媒体数据(如图片、文本、短视频、语音对话等)的爆炸式增长,基于哈希学习的跨模态检索技术应运而生并逐渐成为多媒体内容理解和计算机视觉方向的主流研究课题。为解决现有哈希方法中“查不快”和“存不下”两大难题,本论文提出了四种有监督哈希方法,取得了以下主要创新性研究成果:

1)一类现有监督哈希算法采用基于类标签信息构建的成对语义相似性矩阵需要较高的计算成本和存储开销。另一类方法在利用类标签信息构建哈希模型忽略原始数据样本对的底层特征而导致数据的信息丢失。针对上述两种问题,论文提出一种面向跨模态图文检索的伴随监督量化损失哈希方法。量化对比实验验证了论文方法的可行性以及相对现有哈希方法的检索精度优势。

2)一些现有哈希算法在实现双向检索任务过程中未充分考虑具有丰富语义关系的监督信息。例如单独利用监督类标签信息或者监督成对语义相似性均会由于语义信息的缺失而导致检索任务产生次优的检索精度。论文针对该问题实现了一种面向跨模态图文检索的联合语义一致性哈希方法。量化对比实验验证了论文方法的可行性并相对现有哈希方法的检索精度优势。

3)目前已有算法由于原始数据样本对中的冗余噪声和采样数据中的离群异常值而选择忽视单个模态数据的特有信息。这种只关注于原始实例中内在的共有特征分布信息而忽视每种模态数据的独特属性的方案造成了原始数据的信息丢失,进而导致了检索任务的次优检索精度。论文为解决该问题完成了一种面向跨模态图文检索的具有最大化共享潜在因子的哈希方法。量化对比实验验证了论文方法的可行性以及相对现有哈希方法的检索精度和训练效率的优势。

4)部分哈希算法仍采用构建传统的具有较高计算复杂度的相似性图或者通过附带大量矩阵变量的约束项构建总体目标函数的策略会降低哈希模型的学习效率。论文为优化该问题设计了一种面向跨模态图文检索的保持高效离散类对齐哈希方法,并针对哈希模型的存在的较高复杂度问题并进一步提出了算法变体。与现有哈希方法相比显示了本章方法的检索精度优势以及算法变体在大规模跨模态数据应用上良好的可扩展性。

 

主要学术成果

  1. Song Wang, Huan Zhao *, et al. Learning a Maximized Shared Latent Factor for Cross-Modal Hashing. Knowledge-based Systems. 2021, 228:107252. (SCI,第一作者)

  2. Huan Zhao*, Song Wang, Xiaolin She, Chenhui Su. Supervised Matrix Factorization Hashing with Quantitative Loss for Image-Text Search. IEEE Access, 2020, 8(5): 102051-102064. SCI,导师一作,学生二作)

  3. Song Wang, Huan Zhao *, et al. Efficient Discrete Class Alignment Hashing for Cross-Modal Image-Text Search. Information Processing & Management. (SCI,第一作者,审稿中)

  4. Song Wang, Huan Zhao *, et al. Discrete Joint Semantic Alignment Hashing for Cross-Modal Image-Text Search. IEEE Transactions on Circuits and Systems for Video Technology. SCI,第一作者,审稿中)

  5. Huan Zhao *, Xiaolin She, Song Wang, et al. Fast Discrete Matrix Factorization Hashing for Large-Scale Cross-Modal Retrieval. In MMM, 2021: 24-36. CCF-C类会议. (EI,第三作者)

  6. Tingting Li, Huan Zhao, Song Wang, and Jing Huang. 2021. Style-Guided Image-to-Image Translation for Multiple Domains. In Proceedings of the 2021 Workshop on Multi-Modal Pre-Training for Multimedia Understanding (MMPT '21), 28–36. doi :https://doi.org/10.1145/3463945.3469057. CCF-B类会议. (EI,第三作者)

  7. 赵欢, 王松, 陈佐, 谭彪. 一种融合特征评估和多层感知器的语音情感识别方法. 2017. 发明专利,专利号ZL201710607479.9, 授权公告号 CN107393525B.(第二作者,授权)

  8. 赵欢,肖宇锋,王松,高迎雪. 基于半监督对抗变分自编码的语音情感识别方法及系统. 2020. 发明专利,申请号202110070151.4 (第三作者,实审中).

  9. 王松,赵欢,颜志威等. 用于多媒体数据跨模态检索的离散语义关联哈希方法. 2021. 发明专利,申请号202110828480.0. (第一作者,已受理)