答辩公告
我的位置在: 首页 > 答辩公告 > 正文
蔡洁答辩公告
浏览次数:日期:2019-09-20编辑:研究生教务办1

答辩公告

论文题目

基于信息差异性分析的特征选择算法研究

答辩人

蔡洁

指导教师

骆嘉伟 教授

答辩委员会主席

王志英 教授

学科专业

计算机科学与技术

学院

信息科学与工程学院

答辩地点

信息学院223

答辩时间

20199238:30

学位论文简介:

随着获取信息数据技术的飞速发展,信息数据以前所未有的速度增长和积累。这些数据往往呈现出样本多、维度高的特点,对机器学习和数据挖掘带来了巨大的挑战。高维的数据集中往往存在大量冗余的、无关的甚至是噪声的信息,这些信息可能对机器学习算法的建模造成困扰。特征选择技术通过剔除原始高维数据集中的噪声、无关和冗余特征,实现对数据集的预处理,良好的特征选择结果可以高效地生成精度更高的机器学习模型因此,针对高维数据特征选择方法的研究具有重要的研究价值和应用意义。本文从信息差异性分析的角度出发,在聚类特征选择、启发式特征选择、深度特征选择和集成特征选择方面开展了一系列的研究工作。主要研究工作如下:

1)针对聚类特征选择算法中特征差异表达不足的问题,本文运用信息距离作为差异性分析指标,提出了一种基于密度峰值聚类的特征选择方法,DPCID。

2)针对基于信息相关性的特征选择方法过于倾向于选择熵值较大的特征,可能导致分类器出现过拟合的问题,本文引入自冗余因子作为适当的惩罚,提出了一种基于信息距离度量的启发式特征选择方法,MFFID。

3)针对深度学习模型在建模小样本数据集时,往往存在训练精度高而测试精度低的过拟合问题。本文提出一种基于交叉熵的高层降噪自动编码特征的选择方法,HDAECE。

4)大多数集成特征选择方法由于没有合适的度量特征子集差异性的方法,对特征子集采用随机划分的策略,从而导致集成方法的性能不稳定。本文设计了最小信息距离和SMID度量标准,并提出一种新的集成特征选择框架EFSMID

主要学术成果:

[1] Jie Cai, Jiawei Luo, Shulin Wang, Sheng Yang. Feature selection in machine learning. a new perspective. Neurocomputing, 2018, 300:70-79. (SCI

[2] Cai Jie, Liang Cheng, Luo Jiawei. Feature Selection Using Information Distance Measure for Gene Expression Data. Current Proteomics, 2018, 15(5):352-362. (SCI

[3] Cai Jie, Luo Jiawei, Liang Cheng, Yang Sheng. A novel information theory-based ensemble feature selection framework for high-dimensional microarray data. International Journal of Performability Engineering, 2017, 13(5):742-753. (EI)

[4] Cai Jie, Cao Shilong, Yang Sheng, Wang Shulin, Luo Jiawei. Feature Selection Based on Density Peak Clustering Using Information Distance Measure. Lecture Notes in Computer Science13th International Conference on Intelligent Computing, ICIC 2017, 125-131. (EI)

[5] Qiu Xiao, Jiawei Luo, Cheng Liang, Jie Cai, Pingjian Ding. A graph regularized non-negative matrix factorization method for identifying microRNA-disease associations. Bioinformatics, 2018, 34(2):239-248. (SCI

[6] Qiu Xiao, Jiawei Luo, Cheng Liang, Jie Cai, Guanghui Li, Buwen Cao. CeModule: an integrative framework for discovering regulatory patterns from genomic data in cancer. BMC Bioinformatics, 2019, 20(1):67. (SCI)

[7] Qiu Xiao, Jiawei Luo, Cheng Liang, Guanghui Li, Jie Cai, Pingjian Ding, Ying Liu. Identifying lncRNA and mRNA Co-expression Modules from Matched Expression Data in Ovarian Cancer. IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2018, DOI: 10.1109/TCBB.2018.2864129.SCI