一种大数据清洗方法
基本信息
申请号 | CN201710622180.0 | 申请日 | - |
公开(公告)号 | CN110019152A | 公开(公告)日 | 2019-07-16 |
申请公布号 | CN110019152A | 申请公布日 | 2019-07-16 |
分类号 | G06F16/215 | 分类 | 计算;推算;计数; |
发明人 | 李笠 | 申请(专利权)人 | 润泽科技发展有限公司 |
代理机构 | 北京东方芊悦知识产权代理事务所(普通合伙) | 代理人 | 李岩 |
地址 | 065001 河北省廊坊市廊坊经济技术开发区楼庄路9号润泽国际信息港 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种大数据清洗方法,先对清洗流程进行配置定义,再对清洗流程进行解析并转换为Spark的原子操作。将清洗任务提交至大数据分析框架Spark集群后,由Spark集群进行数据清洗,因为每个清洗流程中的每个步骤都已转换为Spark的原子操作,所以在Spark集群中进行的各个清洗步骤均可以分布式并行执行,从而能够显著提高数据清洗的清洗速度,实现高速度和高效率的数据清洗,更加适用于当前的大数据环境。 |
