答辩公告
我的位置在: 首页 > 答辩公告 > 正文
​李泽军预答辩公告
浏览次数:日期:2019-04-11编辑:研究生教务办1

预答辩公告

论文题目

基于数据挖掘的基因和疾病的关系研究

答辩人

李泽军

指导教师

廖波

答辩委员会

主席

蔡立军

学科专业

计算机科学与技术

学院

信息科学与工程学院学院

答辩地点

信科院523

答辩时间

2019411

下午700

学位论文简介

利用先进的数据挖掘方法分析研究基因和疾病之间的关系有助于发现疾病的发生机制,从而为疾病的诊断和个性化治疗提供科学依据。但是,基因相关信息的数据通常具有高维小样本、高噪声、高冗余的特点,这使得很多优秀的数据挖掘和机器学习方法在处理分析基因与疾病相关数据时效果较差。因此,需要针对具体基因和疾病的相关数据的特点,设计合适的算法模型来进行数据分析。

在本论文中,针对不同基因与疾病相关数据的特点,从基因功能预测,特征基因选择和miRNA和疾病的关系三个方面对基因与疾病的关系进行了分析研究。提出了一系列相应的数据挖掘方法对其进行处理。本文的主要研究内容和创新点如下:

1)首先,本文从基因表达模式的角度对基因功能进行预测,细致地分析研究了基因功能注释数据库中基因功能之间的关系及其推导过程。针对基因功能注释数据库中基因与功能之间多对多映射关系的特点,本文引入基于本体层次结构的多示例多标签学习框架,并对多示例多标签学习框架进行研究分析。其次,针对基于本体层次结构的多示例多标签学习框架的退化策略会退去基因之间的相关性的问题,本文结合多示例学习框架与层次聚类算法,提出了基于本体层次结构的多示例层次聚类算法。该算法以基因表达相关性为基础,将拥有相同基因功能的基因的时序表达数据子集视为该基因功能的示例集合进行多示例构建。使用基因时序表达数据之间的皮尔森相关系数计算多示例之间的距离,并通过最大化各基因功能类中所包含的基因之间的相关性进行聚类约束,使得基因之间的相关性能在聚类过程中得到很好的保持。最后,为验证算法的有效性,本文在酿酒酵母的四个基因时序表达谱中进行实验,先使用多示例层次聚类算法将多示例多标签任务退化成单示例多标签任务,再采用多标签支持向量机或多标签ķ近邻算法进行求解。实验表明该算法能在多示例多标签学习框架的退化过程中很好的保持着基因之间的相关性,并拥有着良好的性能。

2)深入研究基于流形的半监督降维框架和各种特征选择算法,总结了实现半监督特征选择的一般方法,尤其是半监督图嵌入刻画流形的具体方法;由于数据的局部结构比全局结构更有利于降维,而传统的基于局部边界最大化准则的特征选择算法并未考虑数据分布的全局几何结构以及类别和特征之间的关系,基于半监督流形学习、谱图理论和信息论,本文提出了一种基于局部判别边界最大化的半监督特征选择算法,简称 semiMM。并设计了一种半监督特征选择和半监督分类实验环境设置方法,在五个基因谱表达数据集上进行分类对比实验,结果表明semiMM 具有很好的鲁棒性和良好的分类精度。

3)开发了MiRNA-疾病关联预测(IMC-MDA)的归纳矩阵完成模型。对潜在的miRNA-疾病关联预测的研究将有助于我们了解疾病的发病机制并促进疾病的治疗,然而使用生物实验验证来鉴定与疾病相关的miRNA是费时费力的,而且没有针对性。针对已有的关于预测疾病与miRNA的计算模型存在的不足,比如准确性还不理想,还有效模型需要负样本,因此目前迫切的需要简单而有效的用于预测疾病相关的miRNA的新的计算模型。在本文中开发了一种miRNA和疾病关联预测的归纳矩阵完成模型,简称为IMC-MDA。在IMC-MDA的模型中,将已知的miRNA-疾病关联和整合的miRNA相似性和疾病相似性组合以计算每个miRNA-疾病对的预测分数。 基于LOOCVIMCMDAAUC0.8034,表现出比以前的方法更好的性能。 此外,实验分别证实了五种主要人类疾病的预测疾病相关miRNA:结肠肿瘤,肾肿瘤,淋巴瘤,乳腺肿瘤和食道肿瘤。


主要学术成果

[1] Zejun Li, Bo Liao, Yun Li, Wenhua Liu, Min Chen and Lijun Cai. Gene function prediction based on combining gene ontology hierarchy with multi-instance multi-label learning. RSC Advances, 2018,8:28503.(SCI 三区)

[2] Zejun Li, Bo Liao, Lijun Cai, Min Chen and Wenhua Liu. Semi-Supervised Maximum Discriminative Local Margin for Gene Selection. Scientific Reports, 2018, 8: 8619.(SCI 三区)