一种防止数据二次污染的数据治理方法

基本信息

申请号 CN202011619060.3 申请日 -
公开(公告)号 CN112650744A 公开(公告)日 2021-04-13
申请公布号 CN112650744A 申请公布日 2021-04-13
分类号 G06F16/215;G06F16/25;G06F16/28 分类 计算;推算;计数;
发明人 黄远新;余宗伟;黄开辉 申请(专利权)人 广州晟能软件科技有限公司
代理机构 广州海石专利代理事务所(普通合伙) 代理人 邵穗娟
地址 510670 广东省广州市黄埔区科学大道182号C2栋502房
法律状态 -

摘要

摘要 本发明提供一种防止数据二次污染的数据治理方法,包括以下阶段:第一阶段,建立镜像库,针对每个生产系统建立镜像库;第二阶段,识别数据变化,生产系统采集的数据和镜像库的数据对比;第三阶段,数据融合处理,将第二阶段新增的部份和变化的部份,和数据仓库中的主题数据进行对比;第四阶段,发布数据仓库数据变动事件,将数据仓库的主题数据的变动部份,以数据事件方式发布到事件总线,采取数据一致性处理或丢弃处理。仅针对数据清理过程中,思路同样放在仅处理生产系统数据变化部份,对脏数据二次污染的过程进行治理,具有简单、易行、通用的特点,有效提升数据治理效率,降低数据融合成本。