基于时间衰减因子的文本实时聚类方法
基本信息
申请号 | CN202010562915.7 | 申请日 | - |
公开(公告)号 | CN111797235A | 公开(公告)日 | 2020-10-20 |
申请公布号 | CN111797235A | 申请公布日 | 2020-10-20 |
分类号 | G06F16/35(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 张步良;刘袁静;张麒;魏选明;魏刚;蒲存伟 | 申请(专利权)人 | 成都融微软件服务有限公司 |
代理机构 | 北京科石知识产权代理有限公司 | 代理人 | 徐红岗 |
地址 | 610000四川省成都市高新区云华路333号9栋 | ||
法律状态 | - |
摘要
摘要 | 一种基于时间衰减因子的文本实时聚类方法,依据文本的发布时间和发布平台确定文本的初始聚类热度,并根据时间的推移不断衰减,以此作为文本数据的聚类排序依据。充分体现了大数据领域中新闻话题类文本的热度价值与时效性的密切关系,使后续的新闻过滤、信息筛选更加方便,明显提高了聚类的性能;算法设计简单有效,特别适用于新闻类时效性强的海量流式文本的聚类处理。 |
