答辩公告
我的位置在: 首页 > 答辩公告 > 正文
祝团飞预答辩公告
浏览次数:日期:2019-02-25编辑:研究生教务办1

答辩公告

论文题目

基于过采样技术的不平衡数据

学习研究

答辩人

祝团飞

指导教师

林亚平教授、刘永和教授

答辩委员会

主席

杨金民

学科专业

计算机科学与技术

学院

信息科学与工程学院

答辩地点

软件大楼425

答辩时间

2019年2月26日

下午4:00

学位论文简介

在机器学习和数据挖掘领域,如何有效地处理众多现实应用场景中不同特性的不平衡数据学习,是一个亟待解决的重要问题。本文围绕多种类型的不平衡学习问题展开研究,并提出相应的过采样方法,主要的工作和创新点包括以下几方面:

(1)针对多分类不平衡问题,提出了一种基于k最近邻居的合成少数过采样算法。本文提出的基于k最近邻居的过采样算法给每一个邻居方法赋值一个被选择用于生产合成少数样本的选择权重。通过给予那些可能造成严重过泛化的邻居方向相对较小的权重,该算法可以形成一个避免过泛化的机制。由此,本方法可以通过给参数k设置一个高的值去大幅度地开拓潜在的少数类区域,而不会导致严重的过泛化问题。

(2)针对有序回归的不平衡学习问题,提出关注生成方向的合成少数过采样算法。本文提出的关注生成方向的过采样算法对每一个候选生成方向计算一个被选择用于生成合成样本的选择权重。通过考虑类的有序,那些潜在扭曲有序样本结构的候选生成方向将被赋值低的选择权重。由此,该算法能在没有严重损害已有有序的前提下,改进少数类的有序。

(3)针对时间序列的不平衡分类问题,提出了一种结构保留的过采样算法。提出的算法使用一种新的基于密度率和最近邻居相似性聚类算法去发现存在于高维空间中的少数类多模式;然后,应用收缩的技术为每一个只有少量代表性数据的模式估计精确的协方差矩阵;最后,利用估计的协方差矩阵基于多元高斯分布为每一个少数类模式生产结构保留的合成样本以维持变量间相关性和改进少数类的分类性能。

主要学术成果

[1]Zhu T, Lin Y, Liu Y, et al. Minority oversampling for imbalanced ordinal regression [J]. Knowledge-Based Systems, 2018. (中科院2区,第一作者)

[2]Zhu T, Lin Y, Liu Y. Synthetic minority oversampling technique for multiclass imbalance problems [J]. Pattern Recognition, 2017, 72: 327-340. (中科院2区,第一作者)

[3]Zhu T, Lin Y, Liu Y, et al. Improving interpolation-based synthetic minority oversampling for imbalanced data learning [J]. Knowledge-Based Systems. (大修,中科院2区,第一作者)