基于样本比率悬殊时改进模型预测准确率的方法和系统

基本信息

申请号 CN201810294658.6 申请日 -
公开(公告)号 CN108764271A 公开(公告)日 2018-11-06
申请公布号 CN108764271A 申请公布日 2018-11-06
分类号 G06K9/62 分类 计算;推算;计数;
发明人 王联军;徐勐;马平男;王有兵 申请(专利权)人 杭州雅拓信息技术有限公司
代理机构 北京国昊天诚知识产权代理有限公司 代理人 施敬勃
地址 310003 浙江省杭州市下城区新华路266号571室
法律状态 -

摘要

摘要 本申请公开了一种基于样本比率悬殊时改进模型预测准确率的方法和系统。包括1)学习数据的预处理:通过供模型学习的所有数据进行抽样,将得到的抽样数据集与目标变量为1的数据拼成新的供模型学习的样本集;2)建立学习模型:将供模型学习的样本集做为模型学习集,供模型学习,得到学习好的模型;3)应用模型:将预测集变量放入学习好的模型,进行预测,获得样本预测label值;4)返回步骤1)进行多次循环,并标记每次循环获得的预测label值;5)重新标记:当n个label值中为1的占比大于β时将该样本标记为1,确认为正样本。本申请能排除偶然性将负样本误判为正样本的情况,从而提高改进模型预测准确率。