
学位论文简介
高保真数字人作为虚实融合应用的核心载体,其跨模态交互能力与时空一致性生成技术已成为推动影视制作、虚拟社交、数字医疗等领域发展的关键。本文围绕经辐射场(Neural Radiance Fields,NeRF)与对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)的跨模态融合框架展开系统性研究,旨在突破动态建模精度不足、编辑可控性受限及时空传播失真的技术瓶颈。本研究的主要创新点包括:
(1) 提出隐式运动导航的可形变 NeRF 表示方法,通过构建可形变神经辐射场和设计隐式运动导航机制,实现了动态头部各部位运动的高精度建模,解决了 传统方法在刚性与非刚性运动耦合下产生的几何漂移和时序不一致问题。
(2) 构建生成式先验引导的跨模态编辑体系,利用 CLIP 与分层嵌入空间,设 计了文本、 图像和三维信息的细粒度解耦和统一表达方法,实现了文本语义与三维 几何属性的精准映射。
(3) 设计分层时空解耦机制,解决真实视频编辑中身份保持与时间一致性的协 同优化难题,确保了编辑结果在单帧上的细节保真, 同时在连续视频帧之间保持了 高度一致性,极大提升了视觉自然度。
(4) 提出端到端训练方案与轻量化架构,使得模型在保持高质量生成效果的同 时具备较高的计算效率和泛化能力,能够适应多种复杂场景的需求。
主要学术成果
[1] Xiaoxue Li, Yuanquan Shi, Xu Zhou, Kenli Li. Maintenance of Range Skyline Query[C]. 2020 IEEE International Conference on Knowledge Graph (ICKG). IEEE, 2020: 615-620. (EI 会议,本人为第一作者)
[2] Zhibang Yang, Xiaoxue Li, Xu Zhang, Wensheng Luo, Kenli Li. K-truss community most favorites query based on top-t[J]. World Wide Web, 2022, 25(2): 949-969. (CCF B类期刊,本人为通讯作者)
[3] Xiaoxue Li, Yunchuan Qin, Zhizhong Liu, Albert Zomaya, Xiangke Liao. Towards efficient and robust intelligent mobile vision system via small object aware parallel offloading[J]. Journal of Systems Architecture, 2022, 129: 102595. (CCF B类期刊,本人为第一作者)
[4] Xiaoxue Li, Yan Ding, RuihuiLi, Zhuo Tang, KenliLi. MoNeRF: Deformable Neural Rendering for Talking Heads via Latent Motion Navigation[J]. Computer Graphics Forum. 2024: e15274. (CCF B类期刊,本人为第一作者)
[5] Xiaoxue Li, Huilong Pi, Yunchuan Qin, Ruihui Li, Kenli Li. TextHair3D: Text Driven 3D Hair Editing with Generative Priors[C]. 2025 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). IEEE, 2025. (CCF B类会议,本人为第一作者)
[6] 李肯立, 李晓雪, 周旭, 罗文晟, 陈岑, 肖国庆, 廖清, 阳王东, 唐卓, 廖湘科. 一种并 行 top-k 范围 skyline 查询方法和系统. 中国. 发明专利, CN112162986A. (已授权)