一种基于Hadoop的数据质量探查系统

基本信息

申请号 CN202011354092.5 申请日 -
公开(公告)号 CN112527783A 公开(公告)日 2021-03-19
申请公布号 CN112527783A 申请公布日 2021-03-19
分类号 G06F16/28(2019.01)I;G06F16/25(2019.01)I;G06F16/215(2019.01)I 分类 计算;推算;计数;
发明人 陈辉;徐云龙;姚伯祥;王海荣 申请(专利权)人 中科曙光南京研究院有限公司
代理机构 南京苏高专利商标事务所(普通合伙) 代理人 李静
地址 211102江苏省南京市江宁区诚信大道519中科曙光南京研究院有限公司
法律状态 -

摘要

摘要 本发明公开了一种基于Hadoop的数据质量探查系统,包括数据质量检测、检测结果统计分析和检测过程监控模块;所述数据质量检测模块包括多源数据的汇聚、数据基础探查和数据自定义探查组件,负责将需要质量检测的数据汇聚到大数据集群中后,对全数据资源和全字段进行探查,再根据实际业务需要及数据特点,自定义地配置数据探查规则,并统计出相应的探查结果;所述检测结果统计分析模块负责查看单个数据目录的检测结果和全局数据资源数据质量分析;所述检测过程监测模块负责对数据检测任务进行统一管理、对数据检测任务进行控制和任务执行概况统计。本发明所述数据质量探查系统可对多种类型数据库数据进行数据质量检测并可配置检测规则和周期。