学位论文简介
图像是计算机感知与理解真实世界的重要媒介之一,增强其多样性在社会安全、智能生活和医疗图像等领域具有重要的研究价值与意义。现有工作存在对真实图像特征空间利用不充分、混淆多模式与多域概念等问题。针对以上问题,本文分别对单域、双域和跨多域图像生成的多样性增强展开深入研究,并做出以下贡献:
针对单域图像生成中生成样本单一化的模式崩溃问题,提出了一种编码的多机制生成对抗网络 (EMGAN) 模型。该模型通过融合 GAN 与 VAE 模型从真实图像中提取特征分布,进而增强生成图像质量,并采用由多分类器监督的多机制生成器增强生成图像的多样性,进而缓解模式崩溃问题。
针对双域图像生成多模态丢失问题,为跨域图像生成设计了一种多样性增强损失函数。该损失函数依据模型提取的图像风格特征最大化生成图像间距,进而增强双域图像生成的多样性。
针对跨域图像生成的跨多域协同困难问题,提出一个风格引导的多域图像翻译模型 (SG-I2IT)。该模型的特征提取器和判别器采用域特定多分支输出设计,以实现多个图像域之间的相互转换;采用多样性增强损失函数监督生成器的训练以增强生成图像的多样性。
针对多域图像生成的域内多样性增强问题,提出了多模态的多域图像翻译模型 (MM-I2I)。模型的风格特定多机制生成器采用多个并行的解码网络,对应生成多个不同风格的图像;域特定判别器采用域特定多分支输出设计,并通过最大化信息熵损失鼓励模型生成的图像分布于多个图像域。
主要学术成果
学术论文:
Tingting Li, Huan Zhao, Jing Huang, Keqin Li. Cross-domain image translation with a novel style-guided diversity loss design [J]. Knowledge-Based Systems, 2022, 255:109731. (JCR Q1, 中科院一区 Top,IF = 8.139,第一作者,已发表)
Huan Zhao, Tingting Li, Yufeng Xiao, Yu Wang. Improving Multi-Agent Generative Adversarial Nets with Variational Latent Representation [J]. Entropy, 2020, 22(9):1055. (JCR Q2, 中科院三区,IF = 2.738,第二作者,导师一作,已发表)
Tingting Li, Huan Zhao, Song Wang, Jing Huang. Style-Guided Image-to-Image Translation for Multiple Domains [C]. In: Proc of the ICMR 2021 Workshop on Multi-Modal Pre-Training for Multi-media Understanding. Taipei, Taiwan, 2021, 28–36. (EI 收录,第一作者,已发表)
Yufeng Xiao, Huan Zhao, Tingting Li. Learning Class-Aligned and Generalized Domain-Invariant Rep- resentations for Speech Emotion Recognition [J]. IEEE Trans. Emerg. Top. Comput. Intell., 2020, 4(4):480–489 (JCR Q2,第三作者,已发表)
Huan Zhao, Yu Wang., Tingting Li, Yuqing Zhao. An Asymmetric Two-Sided Penalty Term for CT-GAN [C]. The 27th International Conference of MultiMedia Modeling. 2021. (EI 收录,第三作者,已发表)
发明专利:
赵欢, 李婷婷, 李祎颖. 一种基于主题增强的文本摘要生成方法:中国,202010611844.5. 2020-04-24. 排名第二(导师排名第一)
赵欢,赵玉青,李婷婷,陈恩思,李博. 一种感知联合空间注意力文本生成图像方法: 中国,申请号或专利号 202210043174.0. 2022-01-04. 排名第三