一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法专利查询专利号|摘要-满商公司网

一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法

基本信息

申请号	CN201510918956.4	申请日	-
公开（公告）号	CN105574093B	公开（公告）日	2019-09-10
申请公布号	CN105574093B	申请公布日	2019-09-10
分类号	G06F16/13;G06F16/14;G06F16/22	分类	计算；推算；计数;
发明人	张鋆;冯骏	申请（专利权）人	深圳市华讯方舟软件技术有限公司
代理机构	北京律和信知识产权代理事务所（普通合伙）	代理人	刘国伟;武玉琴
地址	518102 广东省深圳市宝安区西乡街道宝田一路臣田工业区第37栋3楼
法律状态	-

摘要

本发明公开了一种在基于HDFS的spark‑sql大数据处理系统上建立索引的方法，通过SQL语句在基于HDFS的spark‑sql大数据处理系统上增加索引，删除索引，插入数据，删除数据，在数据查询的时候，自动判断查询列是否存在索引，如果存在，则查找索引包含的文件块，过滤不需要查询的文件块。本发明对在给spark‑sql增加索引功能后，能有效增加查询速度，例如一个典型的spark‑sql数据表，大小为1000GB，1GB一个文件存放，分为1000个文件，如果查询单条记录，原先做法需要扫描1000个文件，建立索引后，只需要扫描1个文件即可，效率提高1000倍。按照一般情况估算，结合传统的关系型数据库经验，建立索引的spark‑sql数据库比没有索引的sql语句查询速度执行要快100‑10000倍或更多。