学位论文简介
在计算机视觉的大范围应用和高昂的人工标注成本之间的矛盾日益突出的今天,学界迫切需要对降低人工标注成本、减少模型对人工标注的依赖进行研究。本文围绕非全监督学习这一主题,针对语义与实例分割范式中存在的若干问题进行了探索,取得了以下主要创新性研究成果:
针对现有的基于先验规则进行演绎的自底向上无监督语义分割算法无法生成细粒度语义的问题,提出了一种基于对自然图像进行观察归纳的自顶向下无监督语义分割算法框架。该框架将在大型图像分类数据集上进行自监督训练得到的语义先验映射到像素空间中,进而生成任意语义粒度的语义分割结果。该工作首次将无监督语义分割应用于具有大量类别的极端复杂的自然场景中,探索了无监督语义分割在自然场景下实际应用的可能性。
针对当前视频目标分割范式需要对训练集进行大量密集标注的问题,提出一种非对称性先验的完全无监督视频多目标分割算法。本方法将从无监督语义分割方法中获取的语义边界作为弱约束,进一步解析出实例边界,在视频目标分割数据集上获得了实例级别的分割结果,并且整个过程完全不需要任何人工标注的引导。
针对交互式视频目标分割算法在选择交互关键帧时存在的主观性与非最优性的问题,提出了一种基于强化学习的交互式视频目标分割关键帧推荐算法。该算法通过将交互式视频目标分割的关键帧选择问题建模为一个马尔科夫过程,借助强化学习算法,不需要显式地关键帧标注,模型也可以自动学习到每一帧的价值量,将价值量最高的帧推荐给用户进行涂鸦标注,这使得人工标注的成本得到降低。
主要学术成果
Zhaoyuan Yin, Pichao Wang, Fan Wang, Xianzhe Xu, Hanling Zhang, Hao Li, and Rong Jin. TransFGU: A Top-down Approach to Fine-grained Unsupervised Semantic Segmentation. In European Conference on Computer Vision (ECCV), pages 73-89, 2022. (CCF-B类,计算机视觉顶级会议,口头报告)
Zhaoyuan Yin, Jia Zheng, Weixin Luo, Shenhan Qian, Hanling Zhang, and Shenghua Gao. Learning to Recommend Frame for Interactive Video Object Segmentation in the Wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 15445-15454, 2021. (CCF-A类,计算机视觉顶级会议)