用于增广数据的数据清洗方法、装置和设备

基本信息

申请号 CN201910204109.X 申请日 -
公开(公告)号 CN109947756A 公开(公告)日 2019-06-28
申请公布号 CN109947756A 申请公布日 2019-06-28
分类号 G06F16/215(2019.01)I; G06F16/50(2019.01)I 分类 计算;推算;计数;
发明人 王毕才 申请(专利权)人 中技数字科技(成都)有限责任公司
代理机构 北京万思博知识产权代理有限公司 代理人 冀婷
地址 610094 四川省成都市高新区世纪城路198号附1497号
法律状态 -

摘要

摘要 本申请公开了一种用于增广数据的数据清洗方法、装置和设备。其中,方法包括:对原始图像集进行数据增广,得到样本图像集;计算所述样本图像集中的每一个图像的图像指纹;对于每一个图像,将该图像的图像指纹与所述样本图像集中其他图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。该方法能够对通过增广方式得到的数据进行清洗,清除相似度高的图像,从而降低耦合度,采用该方法得到的数据集对模型进行训练,不但能够满足模型对数据量的要求,也能够提高模型精度。