张旭博士生答辩公告-湖大计算机学院

我的位置在：首页 > 答辩公告 > 正文

张旭博士生答辩公告

浏览次数:日期：2026-05-19编辑：

学位论文简介

多模态协同理解与人机交互是推动感知智能向认知智能跨越的关键基础能力。其中，“视觉提示引导的图像视频可控性语义分割与描述技术”旨在依托人类轻量化交互信号实现精准、按需的跨模态信息表达。然而，现有图像与视频理解方法多以单模态、单任务为主，缺乏对用户意图的显式建模，导致生成结果普遍存在目标指向性弱、可控性不足及任务间不协同等瓶颈。为解决多类型交互提示编码不统一、高层意图与底层感知间存在语义鸿沟、以及复杂场景时空拓扑关系建模缺失等技术挑战，本文聚焦视觉提示引导机制，系统开展了用户意图驱动的可控多模态协同理解范式研究。主要创新性研究成果如下：

（1）提出视觉提示统一编码的交互式图像分割框架。针对交互式分割中点、框、涂鸦等异构提示表征不统一、上下文信息利用不足的问题，提出了基于概率建模的统一编码框架（PVPUFormer）。该框架通过将离散交互信号映射至连续特征空间，显式弥合了异构提示与视觉特征间的表示鸿沟，显著提升了模型对用户意图的捕捉以及有效信息的利用。

（2）提出基于扩散网络的可控性图像协同分割与理解框架。针对极简提示下意图捕捉难及多模态输出不协同的难题，定义了图像协同分割与描述任务，并构建了基于场景图引导的双模态扩散生成架构。该方法利用自适应意图子图与并行去噪预测机制，从算法层面规避了传统串行级联架构的误差累积，确保了生成的掩码与语义描述在空间定位与高层逻辑上高度同构。

（3）提出基于语义关系一致性学习的遥感图像多模态协同理解框架。针对遥感场景地物高相似性与复杂拓扑关系，设计了上下文感知掩码解码器与跨模态关系一致性对齐模块，通过显式建模地理空间目标的空间拓扑规律，有效克服了遥感理解中的目标混淆与关系错位挑战。

（4）提出基于场景图引导的可控性视频协同分割与理解模型。针对视频序列中意图动态追踪与时空对齐的难题，设计了提示引导的时空图Transformer与细粒度掩码-语言解码架构。通过时空场景图建模与多实体对比学习，实现了视觉轨迹与语义词元的原子级映射，确保了动态演化过程中多模态输出的高度时空协同。

主要学术成果

[1] Xu Zhang, Kailun Yang, Jiacheng Lin, Jin Yuan, Zhiyong Li, Shutao Li. PVPUFormer: Probabilistic Visual Prompt Unified Transformer for Interactive Image Segmentation[J]. IEEE Transactions on Image Processing, 2024, 33: 6455-6468. (SCI 一区, CCF-A期刊, 第一作者)

[2] Xu Zhang, Jin Yuan, Hanwang Zhang, Guojin Zhong, Yongsheng Zang, Jiacheng Lin, Zhiyong Li. SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning[C]. Proceedings of the AAAI Conference on Artificial Intelligence. 2025, 39(10): 10257-10265. (EI, CCF-A会议, 第一作者)

[3] Xu Zhang, Jiabin Fang, Zhuoming Ding, Jin Yuan, Xuan Liu, Qianjun Zhang, Zhiyong Li. Cross-modal Context-aware Learning for Visual Prompt Guided Multimodal Image Understanding in Remote Sensing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2026, 64. (SCI 一区, CCF-B期刊, 第一作者)

[4] Xu Zhang, Jin Yuan, BinHong Yang, Xuan Liu, Qianjun Zhang, Yuyi Wang, Zhiyong Li, Hanwang Zhang. Scene Graph-guided SegCaptioning Transformer with Fine-grained Alignment for Controllable Video Segmentation and Captioning[J]. IEEE Transactions on Image Processing. (CCF-A期刊, 共同第一作者, 小修)

[5] Xu Zhang, Jie Liao, Jiangbo Li, Zhuoming Ding, Jin Yuan, Qianjun Zhang. MLLM-guided Visible-Event Motion Object Detection with Motion Discriminative Learning[C]. 34th ACM International Conference on Multimedia. (CCF-A会议, 共同第一作者, 在审)

[6] Jiabin Fang, Xu Zhang, Zhuoming Ding, Xuan Liu, Yuyi Wang, Meifang Zhang, Jin Yuan. BEVFormer++: temporal amplified BEVformer with explicit parameter prediction for automatic Trajectory Prediction[C], IJCAI, 2026. (CCF-B会议, 第二作者)