答辩公告
我的位置在: 首页 > 答辩公告 > 正文
刘悦博士生答辩公告
浏览次数:日期:2023-03-16编辑:

学位论文简介

自上个世纪以来,生命科学相关领域的发展日新月异,人类加快了探索人体结构和生命奥秘的步伐。细胞是人体结构的最基本单元,人体从一颗受精卵分化成为一个有120万亿细胞的成年人,这些细胞受同一组遗传信息控制,却在分化过程中各不相同。而正是这些差异,影响着人体的功能和健康。于是,相对于组织测序的概念,单细胞测序技术应运而生。而随着单细胞测序从低通量向高通量发展,产生了大量单细胞转录组学、表观基因组学、DNA甲基化等生物数据,这为以单细胞为切入点研究生物体的功能及健康提供良好契机。那么,如何对这些数据中包含的生物信号进行挖掘和分析是一项重大挑战。深入挖掘单细胞转录组学和表观基因组学中的表达信息,不仅对细胞间的通讯和胚胎发育等有着重要指导作用,还可以为精准医疗提供重要依据。然而,单细胞测序相关数据维度高且较稀疏,并且存在大量缺失事件,这对下游分析造成困扰。近年来,深度学习的发展使得基于深度模型的单细胞数据挖掘方法成为生物信息学领域的研究热点。本文以单细胞测序数据为基础,以深度算法为技术手段,针对单细胞测序数据的缺失值推断和特征提取任务进行研究。主要研究内容如下:

1)由于扩增偏差、细胞周期效应等因素导致单细胞转录组测序数据中存在缺失事件,通过计算方法推断单细胞转录组测序数据缺失值是相对低成本和高效率的。而现存的单细胞转录组测序数据缺失值推断方法大多只采用线性或者非线性模型,例如基于各类矩阵分解的线性模型以及基于神经网络的非线性模型,几乎没有对线性和非线性模型结合的探索。基于上述考虑,本文提出了用于推断单细胞转录组数据缺失值的神经协同过滤算法,称为scNCF。首先,将单细胞转录组数据中的细胞和基因表示为独热编码,并通过不同维度的嵌入层将细胞和基因高维稀疏向量映射为低维稠密的隐向量。然后,将细胞和基因隐向量送入由多层感知机和矩阵分解构成的神经协同过滤模型,并预测未知表达值。神经协同过滤模型结合了矩阵分解的线性建模优势和多层感知机的非线性建模优势。不仅如此,scNCF还提出一种新的更适合缺失值推断任务的成对损失函数来优化模型。实验结果表明,scNCF的性能优于现有算法,而且具有适应于不同类型数据的可扩展性。

2)对于极度稀疏的单细胞染色质可及性测序数据,由于技术限制等引起的缺失事件给聚类等下游分析造成困扰。尽管已经有十多种方法被提出专门用于推断单细胞转录组数据缺失事件,但尚未提出专门用于推断染色质可及性测序数据的方法。针对以上问题,本文设计了一套完备的基准测试框架,称为scBenchscBench用于对单细胞转录组测序数据缺失值推断方法在单细胞染色质可及性测序数据上的表现进行基准测试。它的全面性表现在三个方面:首先,用于测试的七种方法具备多样性,包括基于模型的方法、基于平滑的方法和基于深度学习的方法。其次,所考虑的下游分析包括聚类、与元细胞的相关性、亚群距离分析、轨迹分析、计算时间和内存等。然后,测试数据包括七个来自不同物种基于不同测序协议的数据集。实验结果表明,在不同的下游分析中,不同的方法表现存在差异。总体而言,MAGIC表现最佳。总之,scBench是用于对单细胞测序数据缺失值推断算法基准测试的完备框架。

3)单细胞多组学分析技术能够同时测量转录组学和表观基因组学图谱,为剖析细胞命运及异质性提供前所未有的机会。然而,多组学数据的稀疏、高维、近似二值化等特点严重阻碍了对其的分析。最近,图神经网络在各个领域展现出良好的性能,但在单细胞分析方面探索较少。因此,本文提出异构图跨组学注意力机制模型(scHGA)来提取单细胞的特征表示,这是一种基于单细胞异构图神经网络结合两种注意力机制来联合分析单细胞多组学数据的计算工具。首先,通过PathSim计算出单个组学中基于元路径的细胞相似性图。然后,本文提出层次注意力机制捕获双组学细胞特征以进一步剖析细胞异质性。具体来说,先通过结合细胞相似图的节点等级注意力机制获得单个组学的细胞表示,再由跨组学注意力机制获得多组学细胞特征表示。scHGA能够在具有不同异质特征的模拟数据及基于不同测序协议的真实数据上准确分析细胞类型。不仅如此,scHGA是既适用于多组学数据又可分析单组学数据的可定制化模型。scHGA是在单细胞多组学分析上图神经网络模型的成功探索,为分析和理解单细胞测序数据提供新的见解。

4)单细胞转录组学和表观基因组学数据的联合分析能够描述与细胞异质性相关的细胞状态和转录组学调控程序。然而,多组学数据在稀疏性、异质性和维度上的差异很大,严重阻碍了对其的综合分析。因此,本文提出基于深度变分自编码器结合跨组学注意力机制的单细胞多组学测序数据分析模型scAVAE。首先,基于不同的单组学数据,scAVAE使用结合高斯混合模型的变分自编码器将其映射为特定的分布。然后,通过跨组学注意力机制学习包含多组学生物信号的细胞潜在表示,同时利用解码器生成推断的基因表达谱。最后,将获得的细胞潜在表示和基因表达谱用于下游分析。实验结果表明,scAVAE获得的细胞潜在表示能够在多个数据集上实现准确细胞聚类和分类并校正因测序技术或重复实验而产生的批次效应。不仅如此,对成人骨髓数据集的轨迹分析说明scAVAE的低维表示能够准确分析细胞发育伪轨迹。总之,scAVAE是用来分析单细胞多组学数据的有效工具。

主要学术成果

  1. Yue Liu, Shulin Wang, Xiangxiang Zeng, et al. Are dropout imputation methods for scRNA-seq effective for scATAC-seq data? Briefings in Bioinformatics, 2022. (SCI 2区,CCF B)

  2. Yue Liu, Shulin Wang, Junfeng Zhang. A heterogeneous graph cross-omics attention model for single-cell representation learning. International Conference on Bioinformatics & BiomedicineBIBM 2022(CCF B)

  3. Yue Liu, Shulin Wang, Junfeng Zhang, et al. DMFMDA: Prediction of Microbe-Disease Associations Based on Deep Matrix Factorization Using Bayesian Personalized Ranking. IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2020. (SCI 3区,CCF B)

  4. Yue Liu, Shulin Wang, Junfeng Zhang, et al. A neural collaborative filtering method for identifying miRNA-disease associations. Neurocomputing. 2020. (SCI 2)

  5. Yue Liu, Shulin Wang, Junfeng Zhang, et al. LncRNA-disease associations prediction based on neural network-based matrix factorization. IEEE Access. 2020. (SCI 2)