答辩公告
我的位置在: 首页 > 答辩公告 > 正文
张杰博士生预答辩公告
浏览次数:日期:2024-03-21编辑:


学位论文简介

本文以直方图作为引导和监督,设计网络模拟了色彩拾取操作。探究了全局色彩主题和局部色彩点与像素区域之间的相关关系,并研究了交互信息对着色结果的影响及其融合过程。以光流作为色彩传播的基础,探索了图像着色模型应用于视频着色任务的可能性。主要创新如下:

(1) 针对样例着色方法的不稳定性问题,提出了一种全局直方图引导的着色模型。基于简洁的调色盘,提出了语义感知网络用于模拟绘画过程中的颜料拾取操作,使用双分支结构提取灰度图像和调色盘的特征,并利用注意力机制建立匹配关系,从而将色彩分布到合理的语义区域。为保持色彩一致性,提出使用可微直方图损失对结果进行约束。

(2) 针对不同模态用户输入的融合问题,提出了基于语义感知和门控融合的着色框架。使用分支网络提取图像和用户输入的特征,并显式地建立色彩与语义的匹配关系,增强感知能力的同时解耦全局与局部信息。为了平衡不同模态用户输入对输出结果的影响,本文提出了基于门控机制的融合模块,利用色彩语义匹配度来解决多模态输入的色彩冲突问题。

(3) 本文提出了一种特征修正方案,在不改变图像着色网络的条件下将图像着色模型应用于交互式视频着色中。提出了用于记录历史着色状态的记忆模块,并通过基于Transformer 的网络迭代更新记忆单元。提出了一个特征修正模块,利用记忆状态和最新一帧的着色结果,在通道重建之前对特征进行修正,以达到色彩一致性目的。本文建立了专门用于视频着色的大规模数据集。

主要学术成果

[1] Zhang Jie, Xiao Yi, Chen Guo, Sun Qingping, Xu Fangqiang, Leung Chi-Sing. Histogram-Guided Semantic-Aware Colorization. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Singapore, Singapore, 2022: 2549-2553, doi: 10.1109/ICASSP43922.2022.9747119. (第一作者 CCF B类会议)

[2] Zhang Jie, Xiao Yi, Zheng Yan, Wang Zhenni, Leung Chi-Sing. Semantic-Aware Gated Fusion Network For Interactive Colorization. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Rhodes Island, Greece, 2023: 1-5, doi: 10.1109/ICASSP49357.2023.10094771. (第一作者 CCF B类会议)

[3] Xiao Yi, Wu Jin, Zhang Jie, Zheng Yan, Leung Chi-Sing, Ladislav Kavan. Interactive Deep Colorization and its Application for Image Compression. IEEE Transactions on Visualization and Computer Graphics, 2020: 1557-1572, doi: 10.1109/TVCG.2020.3021510. (通信作者 SCI 1)

[4] Sun Qingping, Xiao Yi, Zhang Jie, Zhou Shizhe, Leung Chi-Sing, Su Xin. A Local Correspondence-Aware Hybrid CNN-GCN Model for Single-Image Human Body Reconstruction. IEEE Transactions on Multimedia, 2022: 4679-4690, doi: 10.1109/TMM.2022.3180218. (第三作者 SCI 1)