一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置专利查询专利号|摘要-满商公司网

一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置

基本信息

申请号	CN201711262073.8	申请日	-
公开（公告）号	CN108009152A	公开（公告）日	2018-05-08
申请公布号	CN108009152A	申请公布日	2018-05-08
分类号	G06F17/27;G06F17/22	分类	计算；推算；计数;
发明人	李哲君;卫华飞;刘欢;程瑞辉	申请（专利权）人	陕西识代运筹信息科技股份有限公司
代理机构	北京众达德权知识产权代理有限公司	代理人	陕西识代运筹信息科技股份有限公司
地址	710065 陕西省西安市高新区锦业一路29号龙旗科技园A座8层
法律状态	-

摘要

本发明提供了一种基于Spark‑Streaming的文本相似性分析的数据处理方法和装置，涉及计算机技术领域，所述方法包括：动态获得实时文本数据库；根据实时文本数据库，获得第一文本信息，获得第二文本信息；获得文本长度相似性信息；获得文本词序相似性信息；获得文本关键词相似性信息；获得文本语法相似性信息；根据所述文本长度相似性信息、所述文本词序相似性信息、所述文本关键词相似性信息、所述文本语法相似性信息，确定所述第一文本信息与所述第二文本信息的语句相似度。解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。达到了基于大数据平台，实现对海量文本进行多维度、实时的、准确的文本相似性的技术效果。