一种舆情主题数据聚类方法、装置及存储介质
基本信息
申请号 | CN201910522043.9 | 申请日 | - |
公开(公告)号 | CN110377695A | 公开(公告)日 | 2019-10-25 |
申请公布号 | CN110377695A | 申请公布日 | 2019-10-25 |
分类号 | G06F16/33(2019.01)I; G06F16/35(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 张毅 | 申请(专利权)人 | 广州艾媒数聚信息咨询股份有限公司 |
代理机构 | 广州嘉权专利商标事务所有限公司 | 代理人 | 广州艾媒数聚信息咨询股份有限公司 |
地址 | 510006 广东省广州市番禺区小谷围街青蓝街26号701房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种舆情主题数据聚类方法、装置及存储介质,方法包括:对待聚类的文章进行文本处理,得到句子集合,文本处理包括分割;采用word2vec算法计算句子集合到已有聚类的关键词组的距离;根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表,所述已有聚类主题列表由已有聚类组成。本发明通过自适应的距离阈值提供了通用的、可自动学习调整的分类阈值标准,适用性强;结合了已有聚类这一历史聚类成果来进行主题聚类,优化了聚类的结果;采用了word2vec算法这一神经网络学习方法配合关键词组的距离特征,提升了聚类的速度和准确度,可广泛应用于舆情监控领域。 |
