一种数据清洗方法

基本信息

申请号 CN201710704678.1 申请日 -
公开(公告)号 CN107463705A 公开(公告)日 2017-12-12
申请公布号 CN107463705A 申请公布日 2017-12-12
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 童雷;杨浩东;张复生 申请(专利权)人 陕西优百信息技术有限公司
代理机构 - 代理人 -
地址 710075 陕西省西安市高新区科技五路北侧橡树星座1幢2单元22901室
法律状态 -

摘要

摘要 本发明公开了一种数据清洗方法,通过数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗,将待清洗数据进行聚类;数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。解决了数据清洗只清洗重复数据而不清洗相似数据的问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。