一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法
基本信息
申请号 | CN201510918956.4 | 申请日 | - |
公开(公告)号 | CN105574093B | 公开(公告)日 | 2019-09-10 |
申请公布号 | CN105574093B | 申请公布日 | 2019-09-10 |
分类号 | G06F16/13;G06F16/14;G06F16/22 | 分类 | 计算;推算;计数; |
发明人 | 张鋆;冯骏 | 申请(专利权)人 | 深圳市华讯方舟软件技术有限公司 |
代理机构 | 北京律和信知识产权代理事务所(普通合伙) | 代理人 | 刘国伟;武玉琴 |
地址 | 518102 广东省深圳市宝安区西乡街道宝田一路臣田工业区第37栋3楼 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种在基于HDFS的spark‑sql大数据处理系统上建立索引的方法,通过SQL语句在基于HDFS的spark‑sql大数据处理系统上增加索引,删除索引,插入数据,删除数据,在数据查询的时候,自动判断查询列是否存在索引,如果存在,则查找索引包含的文件块,过滤不需要查询的文件块。本发明对在给spark‑sql增加索引功能后,能有效增加查询速度,例如一个典型的spark‑sql数据表,大小为1000GB,1GB一个文件存放,分为1000个文件,如果查询单条记录,原先做法需要扫描1000个文件,建立索引后,只需要扫描1个文件即可,效率提高1000倍。按照一般情况估算,结合传统的关系型数据库经验,建立索引的spark‑sql数据库比没有索引的sql语句查询速度执行要快100‑10000倍或更多。 |
