一种结合页面解析规则和NLP文本向量化的摘要提取方法

基本信息

申请号 CN201811604934.0 申请日 -
公开(公告)号 CN109684642A 公开(公告)日 2019-04-26
申请公布号 CN109684642A 申请公布日 2019-04-26
分类号 G06F17/27(2006.01)I; G06F16/34(2019.01)I 分类 计算;推算;计数;
发明人 陈玮; 刘德彬; 孙世通; 严开; 吴涛 申请(专利权)人 重庆电信系统集成有限公司
代理机构 重庆智慧之源知识产权代理事务所(普通合伙) 代理人 重庆誉存大数据科技有限公司;重庆电信系统集成有限公司
地址 401121 重庆市渝北区黄山大道中段53号附2号麒麟C座9层
法律状态 -

摘要

摘要 一种结合页面解析规则和NLP文本向量化的摘要提取方法,包括以下步骤:S1:运用Readability包对网页类的文本数据的“body”标签内html格式的正文数据进行抽取;S2:获取所述文本语料的文本长度,排除不合格的文本语料;S3:判断所述文本语料的句子数量是否大于阈值;S4:判断能否获取段落小标题语段;S5:定义正则匹配关键词,剔除匹配到正则匹配关键词的文本得到过滤后的文本语料S6:对语段进行合规性判定;S7:训练Word2Vec模型,将所述文本语料拆分成句子,再将句子拆分成词做向量化操作并用EMD求句子相似度,再运用TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。本发明可以对于长篇博客、新闻类的文章可以获取较核心的句子从而快速了解主旨。