一种防止数据二次污染的数据治理方法
基本信息
申请号 | CN202011619060.3 | 申请日 | - |
公开(公告)号 | CN112650744A | 公开(公告)日 | 2021-04-13 |
申请公布号 | CN112650744A | 申请公布日 | 2021-04-13 |
分类号 | G06F16/215;G06F16/25;G06F16/28 | 分类 | 计算;推算;计数; |
发明人 | 黄远新;余宗伟;黄开辉 | 申请(专利权)人 | 广州晟能软件科技有限公司 |
代理机构 | 广州海石专利代理事务所(普通合伙) | 代理人 | 邵穗娟 |
地址 | 510670 广东省广州市黄埔区科学大道182号C2栋502房 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种防止数据二次污染的数据治理方法,包括以下阶段:第一阶段,建立镜像库,针对每个生产系统建立镜像库;第二阶段,识别数据变化,生产系统采集的数据和镜像库的数据对比;第三阶段,数据融合处理,将第二阶段新增的部份和变化的部份,和数据仓库中的主题数据进行对比;第四阶段,发布数据仓库数据变动事件,将数据仓库的主题数据的变动部份,以数据事件方式发布到事件总线,采取数据一致性处理或丢弃处理。仅针对数据清理过程中,思路同样放在仅处理生产系统数据变化部份,对脏数据二次污染的过程进行治理,具有简单、易行、通用的特点,有效提升数据治理效率,降低数据融合成本。 |
