一种基于密度的文章聚合算法

基本信息

申请号 CN201410234556.7 申请日 -
公开(公告)号 CN105320656A 公开(公告)日 2016-02-10
申请公布号 CN105320656A 申请公布日 2016-02-10
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 吕永强 申请(专利权)人 广州市邦富软件有限公司
代理机构 - 代理人 -
地址 510663 广东省广州市天河区天河软件园高唐新建区广州互联网产业园1号楼第五层A501-A510房
法律状态 -

摘要

摘要 一种基于密度的文章聚合算法,所述算法步骤包括:1.计算集合中文章的信息熵,形成集合;2.计算文章中词条的互信息;3.将熵集合的向量结合互信息权重投影到高纬度,获得高纬度向量集合;4.对高纬度向量聚合进行距离计算;5.根据距离阈值获取质心进行聚类;6.获得聚类结果。本发明提供的聚类算法对粒度密度依赖性低,准确度更高,可用于分布式系统进行网络文档处理及挖掘。