基于时间衰减因子的文本实时聚类方法

基本信息

申请号 CN202010562915.7 申请日 -
公开(公告)号 CN111797235A 公开(公告)日 2020-10-20
申请公布号 CN111797235A 申请公布日 2020-10-20
分类号 G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 张步良;刘袁静;张麒;魏选明;魏刚;蒲存伟 申请(专利权)人 成都融微软件服务有限公司
代理机构 北京科石知识产权代理有限公司 代理人 徐红岗
地址 610000四川省成都市高新区云华路333号9栋
法律状态 -

摘要

摘要 一种基于时间衰减因子的文本实时聚类方法,依据文本的发布时间和发布平台确定文本的初始聚类热度,并根据时间的推移不断衰减,以此作为文本数据的聚类排序依据。充分体现了大数据领域中新闻话题类文本的热度价值与时效性的密切关系,使后续的新闻过滤、信息筛选更加方便,明显提高了聚类的性能;算法设计简单有效,特别适用于新闻类时效性强的海量流式文本的聚类处理。