文本聚类的方法、设备和存储介质
基本信息
申请号 | CN201910753636.6 | 申请日 | - |
公开(公告)号 | CN110532388B | 公开(公告)日 | 2022-07-01 |
申请公布号 | CN110532388B | 申请公布日 | 2022-07-01 |
分类号 | G06F16/35(2019.01)I;G06F40/258(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 龚朝辉;陈汝龙;陈誉;段成阁 | 申请(专利权)人 | 企查查科技有限公司 |
代理机构 | 苏州威世朋知识产权代理事务所(普通合伙) | 代理人 | - |
地址 | 215000 江苏省苏州市工业园区东长路88号C1幢5层503室 | ||
法律状态 | - |
摘要
摘要 | 本发明揭示了一种文本聚类的方法、设备和存储介质,所述方法包括:获取待聚类的文本标题列表;以所述文本标题为顶点,以所述文本标题向量化后的距离为边,构建所述文本标题之间的初始连通图;移除所述初始连通图的大于初始距离阈值的边,得到一个或者多个子连通图;计算每个所述子连通图的聚集程度,若一个所述子连通图的聚集程度大于或等于分簇阈值,所述子连通图对应的文本集合即为一个文本簇。与现有技术相比,本发明能够对文本进行快速、稳定地聚类,同样的文本数据每次聚类的结果是一致的。同时,使用此方法对企业相关的新闻进行聚类,能够快速的实现对企业热点新闻的稳定提取,对于企业相关的新闻热点提取有较好的效果。 |
