学位论文简介
近些年来,随着生物医药数据的爆炸性增张,以深度学习为代表的人工智能技术正在推动着药物研发的技术变革,尤其是基于生物网络的表征学习技术在药物发现领域中显示出了广阔的发展前景,但是由于生物实体之间的多层次关系、多尺度语义、多模态信息以及稀疏的标签,导致生物网络的建模和推理仍然面临诸多挑战。针对上述难点,本文从四个方面进行展开研究促进药物研发。
(1)针对药物和细胞系以及它们内部特征之间的多层次关系,提出一种基于多视图深度注意网络的抗癌药物反应预测方法MultiDRP。通过利用细胞系网络和药物网络驱动图注意模型捕获实体之间的外部关系;利用多头自注意力网络来增强学习生物实体内部特征项之间的依赖关系。在不同的药物预测场景中,MultiDRP获得了非常好的预测性能,通过网络邻近性、GOBP富集和药物通路关联分析表明MultiDRP可以准确识别癌细胞系的敏感性药物和抗性药物;针对肺癌细胞系NCI-H23,预测的八种药物在体外细胞实验中表现出了高敏感值,其中7种药物的IC50值小于10nM。
(2)针对抗新冠炎症有效的药物数据不足以及不同实体之间的异质性,本文提出基于生物网络表征学习的抗新冠炎症药物重定位方法DeepR2cov。该研究通过探索生物异质网络的多枢纽特征设计了生物网络特有的元路径,并提出了基于路径实体掩码的自监督表征算法学习生物实体之间的复杂语义关系,进而提升药物-靶标相互作用预测的精度;同时利用关联图谱分析和文献报告进一步缩小候选药物的筛选空间。最终,预测了22种潜在的候选药物,并通过文献数据、临床报告和分子对接技术分析验证了候选药物的抗炎机理以及分子之间的绑定模式。本文提出的自监督表征算法在五项生物医学应用中取得了良好的预测性能。
(3)针对生物网络中实体之间不同尺度的语义特征和自监督学习中的负迁移现象,本文提出一种基于局部-全局表征融合的生物链路预测方法BioERP。基于Transformer编码器,设计了路径实体掩码和路径检测的自监督表征技术同时捕获生物实体之间的局部-全局关联特征促进生物链路预测,其中路径检测任务在一定程度上是链路预测的扩展,因此,能够缓解自监督学习带来的负迁移现象。
(4)针对如何利用多任务学习框架集成多个自监督表征模型优化分子表征的问题,本文提出了基于生物异质网络的多任务自监督分子表征方法MSSL2drug。从生物异质网络的结构、语义和属性三种模态特征出发,设计了六个自监督任务以及它们的15种多任务组合;提出了基于图注意力的多任务对抗学习框架生成分子表征,并系统地评估不同的多任务自监督模型在药物发现应用中的差异性。最终发现多模态的自监督任务组合能够获得最高的药物预测性能,如果当模态相同时,局部-全局任务组合优于随机的任务组合。与六种基准方法相比,本文发现的多模态自监督表征模型在不同的测试场景中获得更高的精度。针对抗炎症靶标IL-6预测的帕唑帕尼(KD=20.7$uM)和凡德他尼(KD=28.6uM)在表面等离子共振实验中表现出了高亲和力。
主要学术成果
[1] Xiaoqi Wang, Yingjie Cheng, Yaning Yang, et al. Multi-task Joint Strategies of Self-supervised Representation Learning on Biomed-ical Networks for Drug Discovery [J]. Nature Machine Intelligence. 2023, DOI:10.1038/s42256-023-00640-6 (SCI 1区,IF=25.90).
[2] Xiaoqi Wang, Bin Xin, Weihong Tan, et al. DeepR2cov: deep representation learning on heterogeneous drug networks to discover anti-inflammatory agents for COVID-19 [J]. Briefings in Bioinformatics. 2021,22(6):bbab226 (CCF B,IF=13.99).
[3] Xiaoqi Wang, Yaning Yang, Kenli Li, et al. BioERP: biomedical heterogeneous network-based self-supervised representation learning ap-proach for entity relationship predictions [J]. Bioinformatics. 2021,37(24):4793-4800 (CCF B,IF=6.93).
[4] Hong Wang, Xiaoqi Wang, Wenjuan Liu, et al. deepDGA: Biomedical Heterogeneous Network-based Deep Learning Framework for Disease-Gene Association Predictions [C]. IEEE International Conference on Bioinformatics and Biomedicine (BIBM). 2022,601-606 (CCF B,共同第一作者).