文本聚类的方法、设备和存储介质

基本信息

申请号 CN201910753636.6 申请日 -
公开(公告)号 CN110532388B 公开(公告)日 2022-07-01
申请公布号 CN110532388B 申请公布日 2022-07-01
分类号 G06F16/35(2019.01)I;G06F40/258(2020.01)I 分类 计算;推算;计数;
发明人 龚朝辉;陈汝龙;陈誉;段成阁 申请(专利权)人 企查查科技有限公司
代理机构 苏州威世朋知识产权代理事务所(普通合伙) 代理人 -
地址 215000 江苏省苏州市工业园区东长路88号C1幢5层503室
法律状态 -

摘要

摘要 本发明揭示了一种文本聚类的方法、设备和存储介质,所述方法包括:获取待聚类的文本标题列表;以所述文本标题为顶点,以所述文本标题向量化后的距离为边,构建所述文本标题之间的初始连通图;移除所述初始连通图的大于初始距离阈值的边,得到一个或者多个子连通图;计算每个所述子连通图的聚集程度,若一个所述子连通图的聚集程度大于或等于分簇阈值,所述子连通图对应的文本集合即为一个文本簇。与现有技术相比,本发明能够对文本进行快速、稳定地聚类,同样的文本数据每次聚类的结果是一致的。同时,使用此方法对企业相关的新闻进行聚类,能够快速的实现对企业热点新闻的稳定提取,对于企业相关的新闻热点提取有较好的效果。