一种基于Spark的索引方法专利查询专利号|摘要-满商公司网

一种基于Spark的索引方法

基本信息

申请号	CN201911026342.X	申请日	-
公开（公告）号	CN110737667A	公开（公告）日	2020-01-31
申请公布号	CN110737667A	申请公布日	2020-01-31
分类号	G06F16/22;G06F16/2458;G06F16/27	分类	计算；推算；计数;
发明人	王帅	申请（专利权）人	南京录信软件技术有限公司
代理机构	-	代理人	-
地址	210000 江苏省南京市江宁区滨江经济开发区盛安大道739号
法律状态	-

摘要

本发明公开了一种基于Spark的索引方法，包括如下步骤，S1：在Spark进程中通过自定义消费接口消费实时数据，数据通过索引接口建立索引；S2：修改lucene的原生索引接口；S3：将整个索引程序、查询接口与Spark的服务结合起来；S4：进行数据处理，之后进行数据的查询；主要是在原始的Spark检索上添加了一层索引功能，从而加快了检索性能；该功能在索引层使用的是原生的lucene，通过自定义接口，Spark或者离线程序会将数据索引到HDFS上面，以后的统计分析都可以使用Spark的索引查询快速返回，而在查询语言的使用上选择的是Spark SQL，本发明完美的与Spark SQL引擎结合在一起，这种基于结构化数据的查询语言简化了查询难度，降低了学习成本。