一种数据集均衡方法、装置及计算机可读存储介质
基本信息
申请号 | CN202111342212.4 | 申请日 | - |
公开(公告)号 | CN114036145A | 公开(公告)日 | 2022-02-11 |
申请公布号 | CN114036145A | 申请公布日 | 2022-02-11 |
分类号 | G06F16/215(2019.01)I;G06F16/2455(2019.01)I;G06K9/62(2022.01)I;G06Q40/02(2012.01)I | 分类 | 计算;推算;计数; |
发明人 | 顾凌云;周轩;王存伟 | 申请(专利权)人 | 上海冰鉴信息科技有限公司 |
代理机构 | 成都顶峰专利事务所(普通合伙) | 代理人 | 李崧岩 |
地址 | 200000上海市浦东新区自由贸易试验区商城路618号四层B207室 | ||
法律状态 | - |
摘要
摘要 | 本申请提供的数据集均衡方法、装置及计算机可读存储介质,涉及数据处理技术领域,通过调整原始数据集中各样本的权重参数,降低数据集合中噪声样本或者异常样本的权重影响,筛选出有利于提高模型性能的样本来衍生新的样本;同时,基于原始数据集中负样本的分布衍生得到第一衍生数据集,并根据原始数据集中的中样本的分布及样本的权重参数,衍生出第二衍生数据集;最后将原始数据集、第一衍生数据集及第二衍生数据集合并得到均衡后的目标数据集。在基于原始数据集中样本的分布衍生新样本的过程中,尽可能生成有助于性能优化的新样本并增加负样本数量,同时通过权重参数减少生成新样本过程中的噪声,规避噪声对后续业务预测模型训练的影响。 |
