不平衡数据过采样方法、装置及存储介质
基本信息
申请号 | CN201911007816.6 | 申请日 | - |
公开(公告)号 | CN110969260A | 公开(公告)日 | 2020-04-07 |
申请公布号 | CN110969260A | 申请公布日 | 2020-04-07 |
分类号 | G06N20/00;G06K9/62 | 分类 | 计算;推算;计数; |
发明人 | 乔少杰;刘定祥;孙科;韩楠;魏军林;张永清;许源平;彭珍妮;王伟;元昌安;冉先进;范勇强;彭京;周凯;黄萍;郑皎凌;何晓曦;李斌勇;覃晓;张吉烈 | 申请(专利权)人 | 数字泸州产业投资集团有限公司 |
代理机构 | 成都玖和知识产权代理事务所(普通合伙) | 代理人 | 胡琳梅 |
地址 | 610225 四川省成都市西南航空港经济开发区学府路一段24号 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及机器学习技术领域,提供了一种不平衡数据过采样方法,基于三角形重心特点,包括:S1、获取样本集,并对所述样本集进行正负样本划分,得到正样本集和负样本集;S2、获取正样本集坐标点位信息,根据所述正样本集坐标点位信息生成均值中心点;S3、识别所述正样本集中每一正样本到均值中心点的马氏距离,按马氏距离大小对所述正样本进行排序得到正样本序列;S4、根据所述正样本序列对正样本集进行分组生成正样本组,识别所述正样本组的重心,将所述重心位置标记为新正样本;S5、将所述新正样本并入至正样本集得到新正样本集,重复步骤S2‑S4,得到与负样本数量相平衡的正样本数量;通过上述方法,本发明解决了机器学习中的过拟合现象。 |
