梁宇博士生预答辩公告-湖大信息科学与工程学院

我的位置在：首页 > 答辩公告 > 正文

梁宇博士生预答辩公告

浏览次数:日期：2024-04-10编辑：

学位论文简介

图像作为一种直观且高效的信息表达形式，是人类交流与信息传递的关键手段。随着互联网技术与存储技术的飞速发展，人们产生了丰富多样的图像，数据规模不断膨胀。在这样的背景下，能从大量图像中快速准确地检索用户相关信息的能力对于图像检索系统来说变得尤为重要。图像检索系统将图像映射为一个向量特征，通过检索技术执行查询样本与底库数据样本相似度的快速计算。

近年来，深度学习迅猛发展，深度学习技术已经被广泛应用在图像检索系统中的各个环节并取得了良好效果。然而，随着图像数据规模的不断增长和应用场景的日益复杂，大规模图像检索系统仍然面临着很多挑战。本文在深度学习背景下，针对大规模图像检索系统关键的图像特征提取环节与检索环节存在的问题和挑战进行了研究，主要进行了以下三个研究工作：

（1）在图像特征提取环节，本文提出了一种简单高效的自适应特征向后兼容训练方法——MixBCT。在大规模图像检索系统中，当需要部署性能更佳的新模型时，通常需要对底库图像重新执行特征提取，这一过程被称为“特征回填”。“特征回填”成本高昂，且当原始图像数据因隐私保护政策限制访问时不可执行。特征向后兼容训练通过在新模型的训练过程中施加约束，使得新模型生成与旧特征兼容的新特征，避免了繁琐且昂贵的“特征回填”，让图像检索系统能迅速跟进深度学习技术快速迭代的步伐。然而，当前的特征向后兼容训练方法往往忽略了旧特征的分布信息，导致当旧模型质量较差，旧特征分布不佳时向后兼容性能无法保证。针对这一问题，我们分析了在理想情况下保证向后兼容所需的四个约束条件，并构建了一个由单一损失函数指导的训练框架。我们的方法根据旧特征的分布自适应地调整对新特征的约束域，可以作为不同质量旧模型下的统一框架。通过全面而广泛的实验，我们证明了我们方法的优越性。

（2）在检索环节，本文提出了一种用于大规模场景的深度哈希框架——FPPQ。深度哈希通过深度神经网络将高维特征映射为低维二进制编码，旨在提高传统哈希检索性能，实现高效准确的图像检索。然而，在大规模数据场景中，我们发现当前先进或流行的深度哈希方法要么受限于计算成本而无法应用，要么性能难以满足现实场景要求。针对这一问题，我们提出了一种基于乘积量化的新型深度哈希框架，我们的框架通过一个基于 Softmax 的可微分 PQ 分支学习一组预定义的 PQ 编码，它易于实现，不涉及大规模矩阵运算，并且能学习到具有高度区分性的 PQ 编码。我们在不同规模的数据集上进行了全面而广泛的实验，证明了我们方法的显著优越性。

（3）在检索环节，本文提出了一种更实用、更有效的深度哈希框架——FPPQ-3C。我们在第二部分工作提出的 FPPQ 框架在大规模场景下虽然取得了显著的进步，但仍然存在一些局限性。为了进一步提升其性能并拓展应用场景，本文进一步提出了FPPQ-3C（Concise, Decoupled, Comprehensive）框架：我们通过在训练过程中获取预定义 PQ 标签，避免了 FPPQ 对预训练模型的依赖；我们通过引入一个简单的转换模块 T，解耦了 FPPQ 框架中的多任务竞争；我们通过一个基于转换模块 T 和 PQ 分支构成的 F2H 网络，使得 FPPQ-3C 可以在原始数据无法访问的场景下执行哈希编码学习，扩展了应用场景。通过在大规模场景下的全面而广泛的实验，我们展示了 FPPQ-3C 的性能优势与场景应用优势。

主要学术成果

[1] Yu Liang, Shiliang Zhang, Kenli Li, Xiaoyu Wang. Unleashing the Full Potential of Product Quantization for Large-Scale Image Retrieval. Advances in Neural Information Processing Systems, 2024, 36. (NeurIPS，CCF-A类会议，第一作者)

[2] Yu Liang, Shiliang Zhang, Yaowei Wang, Sheng Xiao, Kenli Li, Xiaoyu Wang. MixBCT: Towards Self-Adapting Backward-Compatible Training. International Joint Conference on Artificial Intelligence. (under review，IJCAI，CCF-A类会议，第一作者)

[3] Yu Liang, Guoqing Xiao, Shiliang Zhang, Rong Xiao, Xiaoyu Wang, Kenli Li,. FPPQ++: A More Practical and Flexible Framework for Large-Scale Image Retrieval. International Joint Conference on Artificial Intelligence. (under review，IJCAI，CCF-A类会议，第一作者)

上一篇：: 陈生海博士生预答辩公告

下一篇：: 唐泽民博士生预答辩公告