答辩公告
我的位置在: 首页 > 答辩公告 > 正文
杨亚宁博士生答辩公告
浏览次数:日期:2022-12-09编辑:

学位论文简介

基因组是指生物体内所有遗传物质的总和,基因组的研究有助于从分子层面揭示生命的奥秘。基因组研究中的一个关键步骤是从海量的测序数据中检测出基因组变异。结构变异作为变异的重要组成部分,它对物种进化、生物群体多态性、疾病的发生与发展机制具有重要的意义。然而,检测基因组中的结构变异面临着巨大的挑战。一方面,在人类基因组计划的推动下,测序技术的空前发展导致了测序数据量的爆炸式增长。 面对海量的测序数据,现有的结构变异检测工具已经不能满足快速高效检测的性能需求。另一方面,由于结构变异的类型复杂性和长度随机性,现有的基于高通量测序的检测工具的检测结果差异较大,传统的检测算法很难以高精度检测出结构变异的精确位点和大小。除此之外,结构变异在各种疾病的发生与发展中起着至关重要的作用,但由于它涉及的碱基长度范围较长,使得在结构变异和疾病进展机制之间建立联系变得非常具有挑战性。

针对以上问题,本文提出多种高通量测序数据分析的解决方案和算法,包括基于同构多核平台和异构众核平台的两种并行方案,基于机器学习的结构变异检测算法,以及基于机器学习的结构变异致病性预测算法。本文的主要内容如下:

1Pindel 是一个基于高通量测序数据的基因组结构变异检测算法。测序数据的爆炸式增长对其当前的串行实现提出了新的挑战。因此,本文设计并实现了基于分布式同构多核处理器的并行检测工具 ParaPindelParaPindel 将染色体划分为多个大小固定的小窗口,从而实现不同窗口、不同染色体之间的高效并行检测。实验结果表明,在天河超级计算机的 128 个节点上使用 256 个进程,在不影响检测结果的前提下,ParaPindel 将检测个体全基因组结构变异的时间从 186 小时缩短到了 0.55 小时,加速比达到 163 倍,并行效率达到 69.74%

2)基于天河新一代超级计算机,本文进一步对 Pindel 的执行过程重新设计,实现了大规模可扩展的异构协同并行检测算法 MTPindelMTPindel 采用了三级并行策略来实现。通过将染色体划分成更小的窗口,实现了节点之间的粗粒度数据级第一级并行。通过划分模块中的数据和任务,实现了节点内数据级和任务级的第二级并行。利用 MT-3000 异构处理器加速域端的超长指令字和众核处理器的优势,实现了更细粒度的第三级自动向量化并行。总之,基于 MT-3000 的多核通用域和众核加速域,MTPindel 实现了通用域端和加速域端的协同并行检测,解决了大规模全基因组结构变异检测效率低的问题。实验结果表明,在 128 MT-3000 平台节点上,在几乎不影响检测精度的前提下,MTPindel 达到了 123 倍的加速比和 95.74% 的并行效率。

3)针对目前的基于高通量测序的结构变异检测工具准确率较低问题,本文实现了一种基于机器学习的两阶段结构变异检测工具 uSVcaller。其关键思想是将结构变异断点位置和变异区间检测问题转化为识别问题。本文使用千人基因组中现有样本数据以及其高置信度的结构变异,从多个角度挖掘断点和区间的特征来训练断点和区间模型。在检测过程中分两阶段进行,在第一阶段,结合双端测序中的 Paired-readsSplit-reads 和测序深度三方面的信息来筛选出候选的变异断点,然后使用预训练的断点模型过滤候选断点并得到高置信度的断点。在第二阶段,利用高置信度的断点构建出候选区间,再使用预训练的区间模型来过滤候选区间并得到高置信度的变异区间。在每一阶段中,本文使用了多进程加多线程的两级并行策略来加速每个过程的计算。实验结果表明,uSVcaller 的检测精度优于现有的工具,并且预训练的模型在不同测序深度的测序数据上表现出良好的通用性和泛化能力。在单个计算节点内,uSVcaller 获得了约 12 倍的并行加速比和 75% 的并行效率。

4)针对结构变异的临床致病性难以分析问题,本文提出了一种基于机器学习的外显子结构变异致病性预测模型 SVPath。首先,本文从多方面收集与挖掘了高质量的已知致病性的结构变异数据。其次,从多角度引入与结构变异相关的生物学特征对变异数据进行注释,包括基于单核酸替换级别的相关评分、基于基因级别的相关分数和基于表观遗传学的相关特征等。最后,采用梯度提升决策树机器学习方法,分别训练缺失、插入和重复变异的致病性预测模型 SVPath。在构建特征时,本文采用了多进程并行策略来加速变异的特征注释过程。实验结果表明,SVPath 达到了出色的预测性能,并且优于现有的预测方法。采用多进程并行策略,能够有效降低变异特征的注释时间。SVPath 可用于临床研究中预测未知致病性和新的结构变异的临床重要性,从而以计算的方式探索疾病与结构变异的关系。

本文提出的高效率可扩展的结构变异并行检测策略、基于机器学习的结构变异检测算法和结构变异致病性预测方法能够为临床基因组学的研究提供高效、可靠且准确的计算需求,为更高效、更精准化和更个性化的医疗健康服务奠定了基础。

主要学术成果

  1. Yang Yaning, Wang Xiaoqi, Zhou Deshan, Wei Dong-Qing, Peng Shaoliang. SVPath: an accurate pipeline for predicting the pathogenicity of human exon structural variants[J]. Briefings in Bioinformatics, 2022, 23(2): bbac014. SCI 2区,Top期刊,一作)

  2. Yang Yaning, Wang Xiaoqi, Xu Ying, Yang Chao, Jiang Bin, Peng Shaoliang. ParaPindel: a scalable coordinated parallel detection framework for human genome-wide structural variation[C]//2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE, 2021: 574-579. CCF B类会议,一作)

  3. Yang Yaning, Wang Xiaoqi, Peng Shaoliang. A Dynamic Protection Mechanism for GPU Memory Overflow[C]//IFIP International Conference on Network and Parallel Computing. Springer, Cham, 2020: 30-40. CCF C类会议,一作)

  4. Peng Shaoliang, Yang Yaning, Liu Wei, Li Fei, Liao Xiangke. Discriminant projection shared dictionary learning for classification of tumors using gene expression data[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019, 18(4): 1464-1473. SCI 3区,导师一作,本人二作)

  5. Wang Xiaoqi, Yang Yaning, Li Kenli, Li Wentao, Li Fei, Peng Shaoliang. BioERP: biomedical heterogeneous network-based self-supervised representation learning approach for entity relationship predictions[J]. Bioinformatics, 2021, 37(24): 4793-4800.SCI 2区,Top期刊,二作)

  6. Xin Bin, Yang Yaning, Xie Xiaolan, Shang Jiandong, Liu Zhengyu, Peng Shaoliang. Detecting and Classifying Nuclei Using Multi-Scale Fully Convolutional Network[J]. Journal of Computational Biology, 2022.SCI 4区,二作)

  7. Xin Bin, Yang Yaning, Wei Dongqing, Peng Shaoliang. CFCN: A Multi-scale Fully Convolutional Network with Dilated Convolution for Nuclei Classification and Localization[C]//International Symposium on Bioinformatics Research and Applications. Springer, Cham, 2021: 314-323. CCF C类会议,二作)

  8. Sun Zhe, Peng Shaoliang, Yang Yaning, Wang Xiaoqi, Li Fei. A general fine-tuned transfer learning model for predicting clinical task acrossing diverse ehrs datasets[C]//2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE, 2019: 490-495.CCF B类会议,三作)