一种大数据清洗方法

基本信息

申请号 CN201710622180.0 申请日 -
公开(公告)号 CN110019152A 公开(公告)日 2019-07-16
申请公布号 CN110019152A 申请公布日 2019-07-16
分类号 G06F16/215 分类 计算;推算;计数;
发明人 李笠 申请(专利权)人 润泽科技发展有限公司
代理机构 北京东方芊悦知识产权代理事务所(普通合伙) 代理人 李岩
地址 065001 河北省廊坊市廊坊经济技术开发区楼庄路9号润泽国际信息港
法律状态 -

摘要

摘要 本发明公开了一种大数据清洗方法,先对清洗流程进行配置定义,再对清洗流程进行解析并转换为Spark的原子操作。将清洗任务提交至大数据分析框架Spark集群后,由Spark集群进行数据清洗,因为每个清洗流程中的每个步骤都已转换为Spark的原子操作,所以在Spark集群中进行的各个清洗步骤均可以分布式并行执行,从而能够显著提高数据清洗的清洗速度,实现高速度和高效率的数据清洗,更加适用于当前的大数据环境。