答辩公告
我的位置在: 首页 > 答辩公告 > 正文
尹兆远博士生预答辩公告
浏览次数:日期:2022-12-20编辑:

学位论文简介

在计算机视觉的大范围应用和高昂的人工标注成本之间的矛盾日益突出的今天,学界迫切需要对降低人工标注成本、减少模型对人工标注的依赖进行研究。因此,本文围绕非全监督学习这一主题,探索了图像与视频中如何降低人工标注成本、减轻模型对密集人工标注数据的依赖等课题。取得了以下主要创新性研究成果:

(1) 探讨了语义的形成与演变问题,并提出一种自顶向下的无监督语义分割框架。该框架允许模型不借助任何人工标注数据,包括前置任务的预训练阶段以及下游的分割任务阶段,就能得到任意语义粒度下的图像语义分割结果,并且不需要图像中的物体是在图像中心。同时该工作首次将无监督语义分割应用于具有大量类别的自然场景中,探索了无监督语义分割在自然场景下实际应用的可能性。

(2) 提出了完全无监督多目标视频目标分割的新范式。该工作针对当前视频目标分割严重依赖训练集中的密集标注问题,在无监督语义分割的基础上,针对视频数据的特点进行了改进,使其具有分辨不同实例的能力,从而对视频目标分割迈向完全无监督的道路做出了探索。

(3) 在交互式视频目标分割中,针对该范式需要人工主观决定最优关键帧提供笔画标注的问题,提出了自然场景下的交互式视频目标分割关键帧推荐问题。借助强化学习算法,不需要显式地关键帧标注,模型也可以自动学习到每一帧的价值量并给出推荐的标注帧,这使得人工标注的成本得到降低。

(4) 为了进一步验证算法的有效性,对YouTube-VOS数据集进行了拓展,使得交互式视频目标分割任务可以在YouTube-VOS数据集上进行验证。

主要学术成果

[1] Yin, Zhaoyuan, Pichao Wang, Fan Wang, Xianzhe Xu, Hanling Zhang, Hao Li, and Rong Jin.  TransFGU: A Top-down Approach to Fine-grained Unsupervised Semantic Segmentation [C]. In European Conference on Computer Vision (ECCV). 2022: 73-89. (CCF-B-Oral, 第一作者)

[2] Yin, Zhaoyuan and Zheng, Jia and Luo, Weixin and Qian, Shenhan and Zhang, Hanling and Gao, Shenghua. Learning to Recommend Frame for Interactive Video Object Segmentation in the Wild [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 15445-15454. (CCF-A, 第一作者)