面向高维和不平衡数据分类的集成

基本信息

申请号 CN201610218160.2 申请日 -
公开(公告)号 CN107273387A 公开(公告)日 2017-10-20
申请公布号 CN107273387A 申请公布日 2017-10-20
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 李臻 申请(专利权)人 上海玻森数据科技有限公司
代理机构 上海申新律师事务所 代理人 上海市玻森数据科技有限公司;上海风报信息科技有限公司
地址 200000 上海市宝山区月罗路310号F东2-G365室
法律状态 -

摘要

摘要 本发明提出面向高维和不平衡数据分类的集成,其特征在于,采用降维和取样的先后顺序,将预处理策略减少为两类;基于实验结论的可重现性原则,选取数据挖掘和机器学习的一些标准数据集作为实验数据;在预处理方法的选择上,增加了封装式(Wrapper)特征选择方法和过取样方法;从属性个数和不平衡程度两方面研究预处理方法对高维不平衡数据分类性能的影响,采用更完备的预处理实验策略,获得了不同的结论:对高维不平衡数据分类前,先减少特征再平衡数据产生的平均AUC性能更优,自动化程度强,采用不同的预处理组合策略来缓和高维和不平衡对分类的影响。