一种基于密度的文章聚合算法
基本信息
申请号 | CN201410234556.7 | 申请日 | - |
公开(公告)号 | CN105320656A | 公开(公告)日 | 2016-02-10 |
申请公布号 | CN105320656A | 申请公布日 | 2016-02-10 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 吕永强 | 申请(专利权)人 | 广州市邦富软件有限公司 |
代理机构 | - | 代理人 | - |
地址 | 510663 广东省广州市天河区天河软件园高唐新建区广州互联网产业园1号楼第五层A501-A510房 | ||
法律状态 | - |
摘要
摘要 | 一种基于密度的文章聚合算法,所述算法步骤包括:1.计算集合中文章的信息熵,形成集合;2.计算文章中词条的互信息;3.将熵集合的向量结合互信息权重投影到高纬度,获得高纬度向量集合;4.对高纬度向量聚合进行距离计算;5.根据距离阈值获取质心进行聚类;6.获得聚类结果。本发明提供的聚类算法对粒度密度依赖性低,准确度更高,可用于分布式系统进行网络文档处理及挖掘。 |
