学位论文简介
神经网络中的注意力机制受到了动物视觉神经机理的启发,可以有选择地接受外界信息,提升网络对大规模数据中关键特征的提取能力,是一种改善神经网络性 能的常用方法。相对自然图像而言,医学图像分割任务所依赖的带标记的样本量少得多。所以,从数量有限的医学图像样本中快速提取关键特征显得非常重要。本文主要研究深度学习视觉注意力机制,并以此缓解当前医学图像分割领域的困境。具体地,本文的主要工作与贡献概括如下:
(1)提出了一种区域到边界感知的全监督医学图像分割模型。基于医学图像中 的人体组织、器官和病灶区域连续性以及边界的不确定性等特点,将区域感知与边界感知解耦。首先,对每个像素平等对待,获取粗分割图,接着,重点对边界周围 的像素点分类,将两者结果融合在一起得到最终的医学组织分割结果。这样分步完 成,逐步细化,以精确识别医学图像中不同类型的组织、器官或病灶。在面向ISIC 2018彩图、肺部平扫CT以及左心室MRI 上的大量对比实验结果表明,我们的算法 在Dice和95HD等关键评估指标一直领先。在 ISIC 2018数据集上,该算法的Dice比同类算法高出0.007 ∼ 0.055,95HD比同类算法小0.01 ∼ 0.44,且在边界识别上有着明显的优势。
(2)提出了一种基于多任务一致性的半监督医学图像分割模型。 基于SDM与PSM(Pixel-wise Segmentation Map)的等价性,以及模型前后PSM预测的一致 性,构建了三个关键输出的循环一致性,三者相互促进。该一致性正则化可施加到 已标记或未标记的样本上。为此,设计了拥有三个输出的V型网络,即预测粗 PSM 和SDM两个并行输出,以及特征增强后的最后输出PSM。多任务一致性正则化强化了三个输出之间的关系,充分了利用了未标记样本。在脑肿瘤MRI以及左心室MRI和ISIC2018彩图上的大量对比实验表明,该算法在Accuracy、Dice和95HD等关键评估指标上都占据领先地位。比如在左心室MRI数据集上,只用10个标记 样本,62 个未标记样本时,我们的算法比同类算法的Dice高出约0.009 ∼ 0.027,HD95比同类算法小约 4.67 ∼8.59,尤其在标记样本量较少时性能突出,这对减少 医学图像标注工作量有着十分积极的意义。
(3)分别提出了基于卷积神经网络(CNNs)与Transformer 串行与并行融合的模型,并用于医学图像分割。为了更好地继承Transformer 预训练结果,提出了将CNNs Stem与预训练Transformer并行拼接,再与CNNs-based 解码器结合的方式。串行融合方案是将 Transformer与CNNs 按照前后训练串联起来,前者的预训练模型 负责特征提取特征,后者则负责细化。并行方案则是将两者并行地用于完成同一个分割任务,最后再将两者结果融合在一起。在心脏 MRI(ACDC)、以及ISIC 2018彩图上的大量对比实验表明,该算法在Dice 和95HD等关键评估指标上优势明显。尤其在ACDC上,提出的串行融合算法比其他同类算法在RV、MYO和LV三种类别的识别上的Dice都要高,且95HD都要小。这对预训练 Transformer在医学图像分割 上的应用有着很大启示。
(4)提出了一种金字塔卷积与MLP(Multilayer Perceptron)结合的Vision Transformer 单元以及基于交叉注意力机制的通道注意力模块,并用它们构建了一个多尺 度监督的 U 型分割模型。对于基础Vision Transformer模块,用金字塔卷积替代了原来的自注意力模块,以此提取多尺度视域的局部特征,然后用MLP将这些拼接在一起的局部特征融合在一起,结构简单,非常适合充当视觉任务中的基本Vision Transformer单元。对于以交叉注意力为基的通道注意力模块:其输入由两部分构成,一是由编码器输出的特征图 F,由此作为自注意力的 Key和Value,二是特征图F的全局空间平均池化,以此作为自注意力的Query。最后再经过MLP以及Sigmoid后,即得通道注意力图。在ACDC以及ISIC 2018上的大量对比实验表明,相比CNNsbased方法和其它Transformer-based方法,该模型在Dice(89.27)和95HD(12.61)等关键评估指标上有着较大优势。其有效结合了Transformer和CNNs的优点,有着快速稳定的收敛性,且最终所获取的性能也很有优势,尤其在ACDC这种小样本医学数据集上。
主要学术成果
[1] Xiaowei Liu, Yikun Hu, Jianguo Chen, Keqin Li. Shape and boundary-aware multi-branch model for semi-supervised medical image segmentation[J], Computers in Biology and Medicine(2022): 105252. (第 一 作 者, SCI 2区,影响因子:6.698)
[2] Xiaowei Liu, Lei Yang, Jianguo Chen, Siyang Yu, Keqin Li, Region-to-boundary deep learning model with multi-scale feature fusion for medical image segmentation[J], Biomedical Signal Processing and Control, Volume 71, Part A, 2022, 103165, ISSN 1746-8094. (第一作者, SCI 2区,影响因子:5.076)
[3] Xiaowei Liu, Kenli Li, Keqin Li. Attentive semantic and perceptual faces completion using self-attention generative adversarial networks[J]. Neural Processing Letters, 2020, 51(1): 211-229.(第一作者, SCI 3区,影响因子:2.565)
[4] 李肯立, 刘晓伟, 阳王东, 刘楚波, 李胜利. 超声标准切面获取的并行方法、装置和计算机设备[P]. 湖南省:CN111340775A, 2020-06-26.(第二发明人)
[5] 刘楚波, 刘晓伟, 朱宁波, 李肯立, 陈建国, 陈岑, 李克勤. 基于自注意力的深度生成式对抗网络的人脸图像补全方法[P]. 湖南省:CN110288537A, 2019-09-27.(第二发明人)
[6] Xiaowei Liu, Kenli Li, Jianguo Chen. A Medical Image Segmentation Model based on Macro Fusion of CNN and Transformer[J]. Neural Processing Letters. (Under Review)
[7] Xiaowei Liu, Kenli Li, Jianguo Chen. A Transformer-like Medical Image Segmentation Model fusing Pyramid Convolution and Multilayer Perceptron[J]. Medical Image Analysis. (Under Review)