一种数据治理实时数据质量检测系统

基本信息

申请号 CN202010938634.7 申请日 -
公开(公告)号 CN112115121A 公开(公告)日 2020-12-22
申请公布号 CN112115121A 申请公布日 2020-12-22
分类号 G06F16/21(2019.01)I 分类 计算;推算;计数;
发明人 鲁红军 申请(专利权)人 云基华海信息技术股份有限公司
代理机构 北京市浩东律师事务所 代理人 李雁
地址 710000陕西省西安市高新区高新三路2号海佳云顶商住楼10603室
法律状态 -

摘要

摘要 本发明公开了一种数据治理实时数据质量检测系统,包括HBASE数据库、配置模块、Spark检测模块、统计模块和存储模块,所述HBASE数据库用于数据增量备份表的初始化,所述配置模块配置检测任务,输入任务名称、待检测表、关联规则、任务执行的优先级,所述Spark检测模块接收来自配置模块配置的检测任务,并进行检测,所述统计模块使用自动以累加器的方式对满足检测规则的数据进行检测结果的统计。本发明可处理PB级别数据,检测数据量巨大,采用集群检测方式,响应速度较快,规则灵活支持单字段对规则与单规则多检测,内置多种检测规则,也可支持用户自定义检测,可持续自动检测已配置任务的增量数据,可出具完善的数据质量检测报告。