一种信息热点挖掘方法及装置
基本信息
申请号 | CN201811399436.7 | 申请日 | - |
公开(公告)号 | CN109492109B | 公开(公告)日 | 2021-09-17 |
申请公布号 | CN109492109B | 申请公布日 | 2021-09-17 |
分类号 | G06F16/35(2019.01)I;G06F40/289(2020.01)I;G06F40/211(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 何晓艺;李德彦;吴云鹤 | 申请(专利权)人 | 北京神州泰岳软件股份有限公司 |
代理机构 | 北京弘权知识产权代理有限公司 | 代理人 | 逯长明;许伟群 |
地址 | 100089 北京市海淀区万泉庄路28号万柳新贵大厦A座6层630室 | ||
法律状态 | - |
摘要
摘要 | 本申请实施例提供了一种信息热点挖掘方法及装置,其中,该方法包括:对采集的语料信息进行数据清洗和分词处理,得到样本语料;对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;将特征信息进行聚类得到多个聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。由此,本申请实施例提供的技术方案,针对短语料信息包含信息量少的特点,将短语料中的特征信息进行聚类,使每个聚类簇包含大量同一类别的特征信息,从而,可以根据聚类簇中特征信息的数量等指标确定热点类别,解决了现有技术中无法从大量的短语料信息中挖掘出有价值的热点信息的问题。 |
