一种基于spark-SQL大数据处理平台的数据导入方法

基本信息

申请号 CN201510920069.0 申请日 -
公开(公告)号 CN105550296B 公开(公告)日 2018-10-30
申请公布号 CN105550296B 申请公布日 2018-10-30
分类号 G06F17/30 分类 计算;推算;计数;
发明人 张鋆;冯骏 申请(专利权)人 深圳市华讯方舟软件技术有限公司
代理机构 北京律和信知识产权代理事务所(普通合伙) 代理人 刘国伟;武玉琴
地址 518102 广东省深圳市宝安区西乡街道臣田社区臣田工业区37栋404室
法律状态 -

摘要

摘要 本发明公开了一种基于spark‑SQL大数据处理平台的数据导入方法,通过入库程序将数据导入spark‑SQL大数据处理平台,所述入库程序包括分区部分、数据压缩部分、写入HDFS部分,所述分区部分、数据压缩部分、写入HDFS部分分别采用C语言编程并编译连接形成优化的目标代码入库程序。采用C语言实现分区逻辑,支持多个分区,支持用户自定义分区格式。使用本发明的数据导入方法入库速度有极大提升,通过对一般样本数据的实际测试,在普通服务器平台上做对比测试,原入库程序速度为2万条/秒,本发明所优化修改过的入库程序速度可以达到19万条/秒。这种入库速度的提高,主要原因是由于程序采用C语言改写,效率比JVM方式快很多。