答辩公告
我的位置在: 首页 > 答辩公告 > 正文
薛钰杰博士生预答辩公告
浏览次数:日期:2026-03-27编辑:


学位论文简介

随着人工智能、机器人技术与智能交通系统的快速发展,无人系统正逐步向自主化与智能化方向演进。其中,感知系统成为无人系统实现自主决策与安全运行的核心基础。本文围绕复杂场景下基于视觉的语义场景补全算法研究展开,纯视觉感知面临的遮挡严重模糊、信息匮乏、任务耦合歧义及动态时序不一致等核心痛点,深入开展视觉三维语义场景补全(SSC)算法研究。主要研究内容与创新点如下:

  1. 针对纯视觉推断中因遮挡与阴影导致的预测模糊难题,构建了集成多重关联注意力的空间感知融合模块。该方法深度挖掘图像内的空间邻近结构与跨视角几何差异,实现了异构特征的精准对齐与双向交互。这有效补偿了视野盲区的信息缺失,显著提升了遮挡环境下全局语义的连贯性与几何推理精度。

  2. 针对视觉特征升维中因几何先验匮乏引发的映射失配与边界模糊问题,引入了教师-学生非对称学习范式。通过精心构建深度、空间及预测域三重蒸馏机制,将高精度点云的体素先验显式注入纯视觉模型。此举从根本上缓解了 2D-3D 转换中的空间错位与语义漂移,实现了跨模态的高精度特征迁移。

  3. 围绕高维特征空间内强行耦合语义与几何表征所引发的分割歧义痛点,将特征映射显式解耦为语义构建与几何细化两个并行分支。该方法引入视觉大模型(SAM)提供稠密先验约束,并辅以语义校准亲和力与形状交互机制。这种任务级解耦有效阻断了多目标推断间的负向干扰,极大增强了模型在复杂环境下的语义鉴别力。

  4. 针对大范围遮挡下的预测歧义及多帧特征简单堆叠导致的时序模糊难题,构建了基于历史上下文时空聚合的三维占用框架。该方法通过层次化体素细化与时序语义聚合机制,将历史帧序列显式投影并深度协同聚合至当前体素,,赋予了复杂动态场景高度鲁棒的几何与语义时空一致性。

主要学术成果

  1. Yujie Xue, Ruihui Li, Fan Wu, Zhuo Tang, Kenli Li, Mingxing Duan. Bi-ssc: Geometric-semantic bidirectional fusion for camera-based 3d semantic scene completion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. CVPR 2024: 20124-20134. (CCF-A类会议, 本人为第一作者)

  2. Yujie Xue, Huilong Pi, Zhuo Tang, Kenli Li and Ruihui Li. PI-Net: Point-to-Image Knowledge Distillation for Camera-based 3D Semantic Scene Completion[J]. IEEE Transactions on Multimedia, 2026, Early Access. (CCF-A类期刊,SCI-1, 本人为第一作者)

  3. Yujie Xue, Huilong Pi, Jiapeng Zhang, Yunchuan Qin, Zhuo Tang, Kenli Li, Ruihui Li. SDFormer: Vision-based 3D Semantic Scene Completion via SAM-assisted Dual-channel Voxel Transformer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. ICCV 2025: 26837-26847. (CCF-A类会议, 本人为第一作者)

  4. Yujie Xue, Meng Wang, Ruihui Li, Fan Wu, Zhizhong Liu, Zhuo Tang, Kenli Li, Learning Spatial-Temporal Consistency for 3D Semantic Scene Completion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. CVPR 2026. (CCF-A类会议,本人为第一作者)

  5. Yujie Xue, Fan Wu, Ruihui Li, Meng Wang, Zhuo Tang, Kenli Li. Progressively Learning Context via Triplane for Camera-based Semantic Scene Completion. IEEE Transactions on Multimedia. 2026. (SCI-1区审稿中,本人为第一作者)