文档聚类方法及装置、网络设备

基本信息

申请号 CN201410160939.4 申请日 -
公开(公告)号 CN105095209B 公开(公告)日 2019-05-10
申请公布号 CN105095209B 申请公布日 2019-05-10
分类号 G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 万振; 张凯达 申请(专利权)人 北京猎豹网络科技有限公司
代理机构 北京银龙知识产权代理有限公司 代理人 珠海豹好玩科技有限公司
地址 519000 广东省珠海市横琴新区宝华路6号105室-53967(集中办公区)
法律状态 -

摘要

摘要 本发明提供了一种文档聚类方法及装置、网络设备,属于数据挖掘、文档聚类及web网页聚类技术领域。该方法包括:步骤a:将待聚类的文档分为多组;步骤b:对其中一组文档通过聚类算法进行聚类,获取初始簇,初始簇对应有频繁项集;步骤c:获取余下的另外一组文档的特征词,根据特征词和初始簇对应的频繁项集,将特征词包含在频繁项集中的文档聚类到频繁项集对应的初始簇,并对剩下的特征词未包含在频繁项集中的文档进行聚类获取新的对应有频繁项集的初始簇;步骤d:判断是否存在未聚类的文档组,如存在,转向步骤c;如不存在,存储聚类成的多个初始簇和每个初始簇对应的频繁项集。本发明的技术方案能够提高文档聚类的速度并且节约计算资源。