学位论文简介
生命科学研究已进入了后基因组时代,人们对转录环境、非编码 RNA 的生物学功能以及临床意义有了更深入的认识和理解。已有证据显示,非编码 RNA 不但可以与蛋白质以及其他生物分子相互作用,调节基因表达,进行细胞通讯,参与蛋白质翻译等,还能调控细胞过程,包括转录调控、RNA 剪切和修饰、信使 RNA (messengerRNA,mRNA)翻译、蛋白质转运、染色体形成和细胞发育等。大量研究发现,非编码 RNA 与几乎一切复杂疾病都有关。甚至由于非编码 RNA 在许多复杂疾病中异常表达,它们已被确定为许多重要疾病的致病驱动因子或抑制因子。深入研究非编码 RNA 的生物功能和调控机制,已连续多年成为生物医学领域的热点课题。研究预测非编码 RNA 与复杂疾病的潜在关联,有利于在分子水平深入理解复杂疾病的致病机制,发现复杂疾病的生物标志物,研制靶向非编码 RNA 的新药物,以及复杂疾病的预防、诊断、治疗和预后,提高人类的健康水平。本文的主要工作如下:
为了克服已有模型严重依赖已知的二分关联,以及相似度网络的构建不够理想等问题,我们提出一种新的预测潜在的miRNA-疾病关联计算模型Tri-HM-RWR。首先,通过引入第三方的基因网络,从而得到了基因-疾病的二分关联以及miRNA-基因的二分关联数据,来弥补已有的miRNA-疾病关联数据有限的缺憾。其次,分别为miRNA、基因和疾病建立多路复用的相似度网络。每个相似度网络都由多层相似度子网络复用而成。这样,既充分利用不同来源不同类型的相似度子网络,又尽可能地保留了各层子网络原有的拓扑结构和特征。最后,在异构的三方(miRNA-基因-疾病)网络上实施非平衡地随机游走以预测潜在的miRNA-疾病关联。在标准数据集上,通过全局留一交叉、全局五折以及局部五折交叉验证实验,证实了我们的Tri-HM-RWR模型的预测性能优于其他MDA预测模型。
为了克服可靠的阴性样本无法获取且矩阵完成的收敛速度较慢的问题,也为了进一步提升预测的准确度和计算速度,我们提出了一个先通过多核学习进行相似度核融合,再为全局异构网络的邻接矩阵实施基于核范式的谱正则化矩阵完成的MCS-SRMCLDA模型,以预测潜在的lncRNA-疾病关联。为了评估模型性能,分别在三个基准数据集上进行参数调整,性能测试和案例分析。结果显示,MCS-SRMCLDA模型既可以避免依赖已知关联的有偏预测,具有计算效率优势,是一个可以推广到大规模链路预测的计算模型。
为了进一步提升预测性能,加快运算速度,在MCS-SRMCLDA的基础上,将多核学习的方法提升为基于“中心核对齐”CKA的方法,来更好地融合多个相似度基核。并分别构造lncRNA和疾病超图,从而在逻辑矩阵分解模型中加入超图正则化项,获得了更准确的关于lncRNA和疾病的高阶网络信息,从而更准确地预测潜在的lncRNA-疾病关联。我们分别在三个场景下,测试了CKA-HRLMF模型的性能,结果表明CKA-HRLMF的预测性能优于对比算法,并能成功预测没有已知关联的lncRNA(或疾病)的潜在关联疾病(或lncRNA)。通过扰动数据测试,证明了CKA-HRLMF模型的鲁棒性。
为了更好地探索lncRNA的分子功能和机制,理解疾病的致病机制,我们开发了一个基于图神经网络和快速核融合的深度学习模型LPI-FKLGCN来识别潜在的lncRNA-蛋白质相互作用。LPI-FKLGCN首先获取了多视图的生物数据,并通过不同的方法来计算多个相似度基核。采用快速核学习FKL分别融合多个lncRNA(蛋白质)的特征和相似度。将融合后的综合相似度以及已知的lncRNA-蛋白质交互数据送入非线性的多层图卷积编码器,分别获取一组lncRNA的嵌入表示向量和组蛋白质的嵌入表示向量,再通过解码器将两组嵌入表示向量转换为一个交互概率矩阵。通过在两组基准数据集上进行对比试验,发现LPI-FKLGCN比现有其他的LPI模型的预测性能更佳,并且可以预测全新的lncRNA和蛋白质的潜在关联。而案例分析结果进一步验证了我们模型的有效性和准确性。
主要学术成果
W. Li, S. Wang, J. Xu, and J. Xiang, Inferring Latent MicroRNA-Disease Associations on A Gene-Mediated Tripartite Heterogeneous Multiplexing Network [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2022.(第一作者,中科院 SC三区收录,IF:3.702,CCF B类推荐)
W. Li, S. Wang, and J. Xu, An Ensemble Matrix Completion Model for Predicting Potential Drugs Against SARS-CoV-2 [J]. Frontiers in Microbiology,2021, 12: 1959.(第一作者,中科院SCI二区收录,IF:6.064)
W. Li, S. Wang, J. Xu, G. Mao, G. Tian, and J. Yang, Inferring Latent Disease-lncRNA Associations by Faster Matrix Completion on a Heterogeneous Network [J]. Frontiers in Genetics, 2019, 10: 769.(第一作者,中科院 SCI二区收录,IF:4.772)
W. Li, S. Wang, and H. Guo, “LPI-FKLGCN: Predicting LncRNA-Protein Interactions Through Fast Kernel Learning and Graph Convolutional Network,” [C]. Bioinformatics Research and Applications. ISBRA 2021. Lecture Notes in Computer Science, vol 13064.(第一作者,CCF C类推荐,EI)
W. Li, S. L. Wang, J. Xu, and J. Yang, “Identification of Human LncRNA-Disease Association by Fast Kernel Learning-Based Kronecker Regularized Least Squares,” [C]. Intelligent Computing Theories and Application. ICIC 2020. Lecture Notes in Computer Science, vol 12464. (第一作者,CCF C类推荐,EI)