答辩公告
我的位置在: 首页 > 答辩公告 > 正文
林家丞博士生预答辩公告
浏览次数:日期:2025-03-29编辑:李晓鸿

学位论文简介

提示场景理解近年来备受关注,通过融合用户提供的多模态参考信息(点击、文本、语音等),提升服务机器人的意图解析与目标定位精度。然而,现有方法多局限于单一模态与特定感知任务,缺乏多模态提示与多任务感知(检测、跟踪、分割)的协同机制,限制了复杂动态场景下的泛化能力。为此,研究提出提示场景理解框架,基于多传感器数据(可见光/红外),结合个性化提示(触屏/文本/语音),实现全场景实时感知与动态目标定位。该框架面临四大挑战:1)交互模糊:点击提示方法受歧义影响,导致定位误差累积;2)小目标失衡:文本提示分割方法难以兼顾精度与实时性;3)跨模态冗余:缺乏语音-文本协同建模,影响模型鲁棒性;4)多目标局限:现有音频参考感知方法仅支持单目标定位,感知效率低。

针对上述挑战,提出了一系列多模态提示感知方法,主要贡献可以被总结如下:

  1. 提出基于点击-像素聚合与梯度自适应的图像单目标分割方法,突破掩码固定生成策略的局限,引入掩码自适应分割框架与点击敏感的Transformer解码器,增强交互图像分割的长距离信息传播能力,同时通过自适应焦点损失缓解梯度淹没问题,加速模型收敛;

  2. 提出基于文本-像素选择与样本不平衡理论的参考图像分割方法,引入轻量级平衡分割网络、多尺度特征融合模块与平衡交叉熵损失,提高小目标定位能力,并在精度与实时性间实现优化;

  3. 提出基于音频-文本协作提示学习的视频单目标分割方法,利用表达提示协作Transformer优化音频与文本的特征对齐,并通过语义级对比学习与表达-视觉注意力模块增强多模态交互,提升目标定位精度;

  4. 提出基于频域自适应的音频提示视频多目标跟踪方法,构建首个音频参考多目标跟踪基准,结合双向频域交叉注意力融合模块与视频对比跟踪学习机制,提升音频与文本提示的多目标跟踪精度,提高交互效率。

最后,通过集成上述方法并拓展了一个面向服务机器人的提示场景理解原型系统,验证了所提方法的有效性,支持服务机器人在复杂场景下的鲁棒、准确、实时的提示目标感知。

 

主要学术成果

  1. Lin Jiacheng, Xiao Zhiqiang, Wei Xiaohui, Duan Puhong, He Xuan, Dian Renwei, Li Zhiyong, and Li Shutao. Click-pixel Cognition Fusion Network with Balanced Cut for Interactive Image Segmentation. IEEE Transactions on Image Processing, 2024, 33: 177-190. (SCI, 第一作者)

  2. Lin Jiacheng, Chen Jiajun, Yang Kailun, A Roitberg, Li Siyu, Li Zhiyong, and Li Shutao. AdaptiveClick: Click-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation. IEEE Transactions on Neural Networks and Learning Systems, 2025. (SCI, 第一作者)

  3. Lin Jiacheng, Chen Jiajun, Peng Kunyu, He Xuan, R Stiefelhagen, Li Zhiyong, and Yang Kailun. EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving. IEEE Transactions on Intelligent Transportation Systems, 2024. (SCI,第一作者)