数据清洗、训练方法及装置、计算机可读存储介质、终端

基本信息

申请号 CN202110422607.9 申请日 -
公开(公告)号 CN113158889A 公开(公告)日 2021-07-23
申请公布号 CN113158889A 申请公布日 2021-07-23
分类号 G06K9/00(2006.01)I;G06K9/62(2006.01)I 分类 计算;推算;计数;
发明人 朱政;陈云泽;黄骏杰;黄冠 申请(专利权)人 上海芯翌智能科技有限公司
代理机构 北京集佳知识产权代理有限公司 代理人 张英英;张振军
地址 200434上海市虹口区海宁路137号7层(集中登记地)
法律状态 -

摘要

摘要 一种数据清洗、训练方法及装置、计算机可读存储介质、终端,数据清洗方法包括:获取待清洗数据,并对所述待清洗数据执行初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别;对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别;将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集,所述干净数据集用于分类模型的训练。本发明技术方案能够保证数据清洗的有效性,在保证训练样本质量的前提下添加训练样本数量。