文本内容显著性区域的局部特征抽取方法及系统
基本信息
申请号 | CN201610810851.1 | 申请日 | - |
公开(公告)号 | CN106484768B | 公开(公告)日 | 2019-12-31 |
申请公布号 | CN106484768B | 申请公布日 | 2019-12-31 |
分类号 | G06F16/33;G06F17/27 | 分类 | 计算;推算;计数; |
发明人 | 李红全 | 申请(专利权)人 | 天津海量信息技术股份有限公司 |
代理机构 | 天津市尚文知识产权代理有限公司 | 代理人 | 天津海量信息技术股份有限公司 |
地址 | 300020 天津市和平区南马路11号麦购国际大厦23层 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种文本内容显著性区域的局部特征抽取方法及系统。该方法包括:按预设挑选规则从资讯文本中的显著性区域中选出M个单句;对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;选出N个权重排列在前的实体词与短语;将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;计算每一单句的长文本的crc64,作为每一单句的的局部特征;将M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。本发明通过将一篇文本内容转换成M个crc64字符表示,有利于创建基于单句的内容检索系统和基于内容的局部特征集的内容消重系统。 |
