基于词性组合的新闻热点提取方法、系统及存储介质
基本信息
申请号 | CN201910120240.8 | 申请日 | - |
公开(公告)号 | CN109977397A | 公开(公告)日 | 2019-07-05 |
申请公布号 | CN109977397A | 申请公布日 | 2019-07-05 |
分类号 | G06F17/27(2006.01)I; G06K9/62(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 罗嘉惠; 白云龙; 唐昊; 魏延峰 | 申请(专利权)人 | 广州市诚毅科技软件开发有限公司 |
代理机构 | 广州嘉权专利商标事务所有限公司 | 代理人 | 胡辉 |
地址 | 510300 广东省广州市广州大道南368号26楼 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了基于词性组合的新闻热点提取方法、系统及存储介质,方法包括:对新闻标题集进行第一分词处理,生成第一词集;根据第一词集对新闻标题集进行第一文本匹配,生成目标标题集;对目标标题集进行第二分词处理,生成第二词集;将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集;对第一关键词单元集进行聚类处理,生成第二关键词单元集;根据第二关键词单元集对新闻标题集进行第二文本匹配,识别得到热点新闻标题。本发明的计算复杂度低且识别精度高,可广泛应用于文字处理技术领域。 |
