学位论文简介
构建癌症基因调控网络在使用 scRNA-seq 数据时面临着多种挑战,包括数据丢失及高维度噪声的影响,这使得从单细胞数据提取精确的调控关系成为一项艰巨的任务。同时,如何更有效地揭示大规模基因之间复杂的调控关系,并通过链路关系建立起基因调控网络,是一个值得深入研究并长期执行下去的课题。
因此,本文旨在构建一种基于多源数据的癌症基因调控网络模型,通过整合多样化的数据源来构建癌症基因调控网络,本文的具体研究工作如下:
(1) 为了解决 scRNA-seq 数据的丢失以及高纬度噪声问题,本文提出了一种结合子空间回归模型与自编码器的插补方法,即 SAE-Impute,旨在提高数据的完整性与准确性。具体来说,SAE-Impute 首先通过子空间回归评估样本相关性,预测潜在的丢失值,然后在自动编码器框架内利用这些先验预测进行去噪和缺值的插补。为了验证 SAE-Impute 的性能,本文在公认的模拟和真实的 scRNA-seq 数据集上系统地进行了实验。这些结果表明,SAE-Impute能有效减少了单细胞数据中的假阴性信号,并增强了丢失值、基因-基因和细胞-细胞相关性的检索。最后,本文还对估算的 scRNA-seq 数据进行了一些下游分析,包括差异基因表达的识别、细胞聚类和可视化以及细胞轨迹构建。
(2) 许多无监督或自监督模型已被提出从大型RNA-seq数据集推断基因调控网络,但很少有模型适用于 scRNA-seq 数据。最近的研究证实,转录因子(TF)-基因(DNA)结合的数据可实现监督基因调控网络推断。为了从单细胞数据中推断基因之间的调控链路,本文引入了图神经网络技术,提出了一种基于图循环神经网络的基因调控链路预测模型,即 GRNNLink,它通过细致的分析和建模,利用已知的基因调控网络来推断基因之间潜在的调控关系。首先,本文对原始 scRNA-seq 数据进行预处理。然后,引入一个基于图循环神经网络(GRNN)的交互式图编码器,通过捕获网络节点之间的相关性来细化基因特征。最后,使用节点相关特征执行矩阵补全以预测基因调控网络。为了评估模型性能,本文在七个 scRNA-seq 数据集上将 GRNNLink 与六种现有的基因调控网络重建方法进行了比较。结果表明,本文的方法具有很高的稳健性和准确性。这一方法不仅增强了数据分析的准确性,还为识别潜在的调控因子提供了更为综合的视角。
(3) 在建立大规模基因调控网络的过程中,基因表达数据的高维特性和非线性特征使得准确推断和重建这些网络成为系统生物学面临的主要计算挑战。本文采用了多模型融合策略,从不同模型的优势中获益,提升推断结果的可靠性。从而提出了一种名为 MRF-XGBLC 的基于多模型融合的大规模基因调控网络推断方法,用于通过非线性常微分方程利用稳态和时间序列基因表达数据重建大规模基因调控网络(GRNs)。首先,MRF-XGBLC使用最大信息系数(MIC)进行降维,并通过计算因子之间的MIC作为模型处理的先决步骤来消除冗余的调控关系。此外,鉴于Lasso-Cox模型在生存分析中的优异性能,本文的特征融合算法采用了XGBoost(eXtreme Gradient Boosting)、RF(Random Forest)和Lasso-Cox(Least Absolute Shrinkage and Selection Operator-Cox比例风险回归模型)集成的混合模型,有效地训练了非线性常微分方程,从而提高了推理算法的准确性和稳定性。在不同规模的数据集上进行的大量实验表明,与最新方法相比,该方法取得了显着的改进。为了验证 MRF-XGBLC 方法的稳健性和有效性,在真实基因数据集上进行了交叉验证,实验结果证实了 MRF-XGBLC 方法的稳健性和有效性。
(4) 在前面的研究中,提出了分别包括 SAE-Impute、GRNNLink 和 MRF-XGBLC 等方法用于处理和分析基因表达数据,并在基因调控网络的构建中取得了显著成果。这些方法各自具有独特的特点和优势,但在实际应用中,结合多种方法可能会更好地揭示基因调控网络的全貌。因此,本文推出一个整合了 SAE-Impute、GRNNLink 和 MRF-XGBLC 方法的超级大模型,该模型基于多模型融合的思想,旨在综合利用不同方法的优势,构建一个更全面、更强大的模型,用于研究基于多源数据的癌症基因调控网络。将 SAE-Impute 的数据插补能力、GRNNLink 的链路预测能力和 MRF-XGBLC 的网络建模能力相结合,构建一个综合性的模型。通过多模型融合的策略,充分利用各个模型的优势,并探索不同模型之间的相互补充和协同作用,以提高基因调控网络模型的准确性和鲁棒性。
主要学术成果
[1] Liang Bai, Boya Ji* and Shulin Wang*. SAE-Impute: imputation for single-cell data via subspace regression and auto-encoders[J]. BMC bioinformatics, 2024, 25(1): 317.(第一作者,SCI 三区,JCR Q1, CCF C类期刊)
[2] Liang Bai, Liwen Xu, Boya Ji, Shulin Wang* and Shaoliang Peng*. MRF-XGBLC: Large-scale gene regulatory network inference based on multi-model fusion. 2024 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). (CCF B会议, 第一作者)
[3] Liang Bai, Boya Ji, Liwen Xu, Shulin Wang* and Shaoliang Peng*. GRNNLink: Predicting gene regulatory links from single-cell RNA-seq data using graph recurrent neural network. 2024 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). (CCF B会议, 第一作者)
[4] Wang X, She X, Bai L*, Qing Y, Jiang F. A novel anonymous authentication scheme based on edge computing in internet of vehicles. Comput Mater Contin. 2021;67(3):3349-3361 (SCI 三区,JCR Q2,第三作者、通讯作者)
[5] Shaoliang Peng*, Liang Bai, Li Xiong, Qiang Qu, Xiaolan Xie and Shulin Wang. GeoAI-based Epidemic Control with Geo-Social Data Sharing on Blockchain. IEEE International Conference on e-Health Networking, Application & Services(HealthCom) 2020 : 1-6. (EI收录,第二作者)
[6] 彭绍亮,白亮,熊力,程敏霞,王树林.面向智慧医疗的边缘计算体系的可信计算研究[J].电信科学.2020, 36(6): 56-63(CSSCI,第二作者)
[7] 王树林, 白亮. 一种大规模基因调控网络推断方法及装置。(第二作者,专利号CN202410224200.9)
[8] 彭绍亮, 刘加梦, 白亮, 刘浩, 肖霞, 张兴龙, 刘凡, 杨学超。一种基于区块链的主节点公平选举方法。(第三作者,专利授权 CN113114495B)