一种文档聚类方法及设备

基本信息

申请号 CN201711423310.4 申请日 -
公开(公告)号 CN110019806B 公开(公告)日 2021-08-06
申请公布号 CN110019806B 申请公布日 2021-08-06
分类号 G06F16/35(2019.01)I;G06F40/284(2020.01)I 分类 计算;推算;计数;
发明人 符晶晶;盛家波 申请(专利权)人 中移动信息技术有限公司
代理机构 北京同达信恒知识产权代理有限公司 代理人 郭润湘
地址 102209北京市昌平区未来科学城英才北三街16号院16号楼1006室
法律状态 -

摘要

摘要 本发明公开了一种文档聚类方法及设备,所述方法包括:确定待聚类的文档中的每篇文档的备选词集合包括的词的重要性值,所述备选词集合包括对所述每篇文档进行分词处理后获得的词,所述重要性值用于表示词与所述词所在的文档的关联程度;确定所述每篇文档的备选词集合中重要性值位于预设范围内的至少一个词;将所述至少一个词组成所述每篇文档的多元组,所述多元组用于完成对所述每篇文档的聚类;确定待聚类的文档中的所有文档的多元组之间的相似度,根据相似度将待聚类的文档中的所有文档聚合为至少一个簇,其中,同一个簇中包括的文档的多元组之间的相似度位于设定范围内。