融合Boost模型的非平衡数据自适应采样方法
基本信息
申请号 | CN201710218019.7 | 申请日 | - |
公开(公告)号 | CN107133639A | 公开(公告)日 | 2017-09-05 |
申请公布号 | CN107133639A | 申请公布日 | 2017-09-05 |
分类号 | G06K9/62(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 宋彬;徐慧囝;陈思佳;张艳 | 申请(专利权)人 | 芜湖宣投智能科技有限公司 |
代理机构 | 安徽信拓律师事务所 | 代理人 | 娄尔玉 |
地址 | 241000 安徽省芜湖市镜湖区融汇锦江A区一号楼门面119室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种将模型认知数据和加权特征空间数据分布相结从而优化非平衡数据采样性能的方法,主要解决现有采样技术的盲目性、对现有特征信息的破坏以及在高维度数据上的不适用性。其实现模块为:(1)算法初始化(2)基于Boost模型的数据认知与数据类型定义(3)基于加权特征空间的数据分布关系与数据类型定义(4)Boost定义数据集和加权空间定义数据集的融合(5)融合数据集中特征类型关联的数据合成方法与冗余数据清除方法(6)算法迭代判断模块。本发明能够结合模型认知数据信息和特征空间数据分布信息,在平衡数据同时去除冗余数据,同时保护了数据原有特征结构,用于大数据领域中对不平衡数据的处理。 |
