学位论文简介
基因组被誉为``生命之书'',大自然通过生物序列书写描绘整个生命过程。对生物序列的研究有助于从分子视角探索生命本质现象。生物序列与自然语言具有很大的相似性,以自然语言处理技术为基础来揭示``生命之书''的含义,有助于提供对生物序列所编码的功能和结构的全面理解,并大大促进生物序列分析研究的发展。核酸和蛋白质序列是两类最重要的生物大分子序列。本文从核酸和蛋白质序列中选择几种典型的分子作为生物序列表征学习的研究对象,以传统特征工程、静态表示、动态预训练表示以及自动化特征工程为技术手段,对生物大分子的序列表征学习进行了研究。主要开展的研究内容概述如下:
基于成对能量含量的植物R蛋白预测方法。植物R蛋白能识别病原微生物分泌的效应蛋白,并引发对病原微生物侵染的免疫反应,准确识别植物R蛋白是植物病理学的一个重要研究课题。现有计算模型大多关注动物蛋白分子而缺少植物蛋白的研究,且其中的蛋白质序列表征学习方法主要依赖氨基酸频率特征,忽略了氨基酸之间的特性。本文提出了一种基于传统特征工程的植物R蛋白预测模型StackRPred。首先,引入了氨基酸残基的成对能量含量矩阵,并以此提出了两种植物R蛋白表征学习方法;然后,将获得的序列表征信息输入所构建的双层Stacking集成学习框架以预测植物R蛋白质。
基于多尺度可解释性的mRNA亚细胞定位预测方法。mRNA在基因转录后调控中起着关键作用,且是指导蛋白质生物合成的直接模板。然而,目前对mRNA序列表征学习方法的探索还有待进一步加强,尤其是缺乏对可解释性方法的分析研究。本文构建一种可解释多尺度注意力机制的mRNA亚细胞定位预测方法mRNA-CLA。该方法通过多尺度卷积网络层获得不同位置的序列特征,并利用自注意力层对每个序列产生的注意力权重,结合CNN层中提取位置权重矩阵,对模型进行了可解释性分析。特别是对不同位置的mRNA序列进行碱基分析,得到序列不同位置碱基特异性,提升了模型的解释性水平。
基于图表征学习和社区检测的NPI预测方法。ncRNA-蛋白质相互作用涉及生命重要过程,探索ncRNA-蛋白质相互作用具有重要意义。现有方法多是通过探索ncRNA或蛋白质分子的序列或结构表征信息,而对它们之间相互作用的表征分析相对比较缺乏。本文提出基于GNN表征学习的NPI预测模型。首先利用两组结构化标签来区分不同类型的节点,从而缓解了图网络中过度耦合的问题。随后,根据图中节点的社区所属关系,进一步优化节点表征。此外,该模型应用了一种自注意力机制来保留图的拓扑结构,以减少池化过程中的信息损失。最后,分别在两个稠密图和两个稀疏图上进行了实验验证。
基于自动化特征工程的ACVP预测方法。COVID-19大流行正严重影响人们日常生活,基于序列表征学习策略开发ACVP预测模型有助于抗新冠病毒药物的研发。与传统的非肽类药物不同,抗病毒肽(AVP)类药物具有高度的特异性,易于合成和修改,而且不容易产生抗药性。由于现有的预测方法多是凭经验选择特征和设置预测模型参数,容易产生主观偏差。此外,在计算生物领域,常用工具、框架等总是在不断变化和更新,使得模型训练愈发“昂贵”。本文提出基于自动化特征工程的ACVP预测方法,该方法首先对AVP和ACVP序列进行多视角表征学习,然后,引入贝叶斯技术优化搜索空间以选择特征和模型的最佳组合。
主要学术成果
Chen Yifan, Li Zejun, Li Zhiyong. Prediction of Plant Resistance Proteins Based on Pairwise Energy Content and Stacking Framework[J]. Frontiers in Plant Science, 2022, 13.
Zhuo Linlin, Chen Yifan*, Song Bosheng, Liu Yuansheng, Su Yansen. A model for predicting ncRNA–protein interactions based on graph neural networks and community detection[J]. Methods, 2022, 207: 74-80.
Chen Yifan, Fu Xiangzheng, Li Zejun, Peng Li, Zhuo Linlin. Prediction of lncRNA–protein interactions via the multiple information integration[J]. Frontiers in Bioengineering and Biotechnology, 2021, 9: 647113.
Chen Yifan, Chen Shaomiao, Li Kuan-Ching, Liang Wei, Li Zhiyong. DRJOA: Intelligent Resource Management Optimization through Deep Reinforcement Learning Approach in Edge Computing[J]. Cluster computing, 2022: 1-15.
Chen Yifan, Li Zhiyong, Yang Bo, Nai ke, Li keqin. A Stackelberg game approach to multiple resources allocation and pricing in mobile edge computing[J]. Future Generation Computer Systems, 2020, 108: 273-287.