一种数据清洗方法及设备

基本信息

申请号 CN201810790545.5 申请日 -
公开(公告)号 CN108959620A 公开(公告)日 2018-12-07
申请公布号 CN108959620A 申请公布日 2018-12-07
分类号 G06F17/30 分类 计算;推算;计数;
发明人 胡晓娇;耿凌;曾会成;石建豪;付宏东;李玺 申请(专利权)人 上海汉得信息技术股份有限公司
代理机构 上海百一领御专利代理事务所(普通合伙) 代理人 王奎宇;甘章乖
地址 201799 上海市青浦区青浦工业园区外青松公路5500号303室
法律状态 -

摘要

摘要 本申请的目的是提供一种数据清洗方法,本申请首先预置数据清洗规则,其中,该数据清洗规则包括数据类型、字段及其对应的清洗转换规则,以便需要对不同行业或企业对应的不同的原始数据进行数据清洗时,能够直接调用该数据清洗规则对对应的原始数据进行及时有效地清洗;当获取待清洗的原始数据及其所有原始字段后,对所述待清洗的原始数据及其所有原始字段进行预处理,得到待清洗数据及其至少一个有效地清洗字段;基于数据清洗规则对待清洗数据中的、每个清洗字段对应的数据进行清洗,得到清洗后的数据,其中,清洗后的数据包括每个清洗字段的清洗值,实现对不同的原始数据中预处理筛选出来的清洗字段及时、定向及有效地清洗。