一种基于主题词优化的文本关键内容智能抽取方法及系统
基本信息
申请号 | CN202110316125.5 | 申请日 | - |
公开(公告)号 | CN112926320A | 公开(公告)日 | 2021-06-08 |
申请公布号 | CN112926320A | 申请公布日 | 2021-06-08 |
分类号 | G06F40/289;G06F40/268;G06F40/30;G06F40/205 | 分类 | 计算;推算;计数; |
发明人 | 吴士伟;卢凤;陈通;李钊;李慧娟;辛国茂;胡传会;王瑞霜;孙浩;宫传华 | 申请(专利权)人 | 山东亿云信息技术有限公司 |
代理机构 | 济南圣达知识产权代理有限公司 | 代理人 | 董雪 |
地址 | 250014 山东省济南市高新区新泺大街2008号银荷大厦B座3层 | ||
法律状态 | - |
摘要
摘要 | 本公开公开的一种基于主题词优化的文本关键内容智能抽取方法级系统,包括:获取待识别文本;对待识别文本进行篇章级分词,获取篇章级词语和每个篇章级词语的权重;对待识别文本进行段落级分词,获取段落级词语和每个段落级词语的词性;将篇章级词语及权重与段落级词语及词性进行匹配,输出包含词语、词性、权重的元组;将包含词语、词性、权重的元组与关键短语规则库进行匹配,获得符合规则的关键短语;根据关键短语,获取文本关键内容。实现了对待识别文本关键内容的准确提取。 |
