一种数据集均衡方法、装置及计算机可读存储介质

基本信息

申请号 CN202111342212.4 申请日 -
公开(公告)号 CN114036145A 公开(公告)日 2022-02-11
申请公布号 CN114036145A 申请公布日 2022-02-11
分类号 G06F16/215(2019.01)I;G06F16/2455(2019.01)I;G06K9/62(2022.01)I;G06Q40/02(2012.01)I 分类 计算;推算;计数;
发明人 顾凌云;周轩;王存伟 申请(专利权)人 上海冰鉴信息科技有限公司
代理机构 成都顶峰专利事务所(普通合伙) 代理人 李崧岩
地址 200000上海市浦东新区自由贸易试验区商城路618号四层B207室
法律状态 -

摘要

摘要 本申请提供的数据集均衡方法、装置及计算机可读存储介质,涉及数据处理技术领域,通过调整原始数据集中各样本的权重参数,降低数据集合中噪声样本或者异常样本的权重影响,筛选出有利于提高模型性能的样本来衍生新的样本;同时,基于原始数据集中负样本的分布衍生得到第一衍生数据集,并根据原始数据集中的中样本的分布及样本的权重参数,衍生出第二衍生数据集;最后将原始数据集、第一衍生数据集及第二衍生数据集合并得到均衡后的目标数据集。在基于原始数据集中样本的分布衍生新样本的过程中,尽可能生成有助于性能优化的新样本并增加负样本数量,同时通过权重参数减少生成新样本过程中的噪声,规避噪声对后续业务预测模型训练的影响。