基于元数据的智能化数据清洗方法及装置
基本信息
申请号 | CN202010906317.7 | 申请日 | - |
公开(公告)号 | CN112000656A | 公开(公告)日 | 2020-11-27 |
申请公布号 | CN112000656A | 申请公布日 | 2020-11-27 |
分类号 | G06F16/215(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 王晓明 | 申请(专利权)人 | 北京天源迪科信息技术有限公司 |
代理机构 | 北京万思博知识产权代理有限公司 | 代理人 | 柴国伟 |
地址 | 北京市海淀区北四环西路56号8层802 | ||
法律状态 | - |
摘要
摘要 | 本申请公开了一种基于元数据的智能化数据清洗方法及装置。所述方法包括:利用元数据管理工具从预先设置的质量检查规则模板中匹配出与源库数据相适应的数据质量检查规则模板;利用匹配出的数据质量检查规则模板对源库数据进行检查,并生成数据质量报告;根据匹配出的数据质量检查规则模板和所述数据质量报告,构建清洗任务脚本和清洗流程;利用构建出的清洗任务脚本和清洗流程对源库数据进行清洗。所述装置包括数据质量检查规则构建模块、源库数据检查模块、清洗任务脚本和清洗流程构建模块和清洗模块。 |
