一种自动发现互联网热点新闻主题的方法及系统
基本信息
申请号 | CN201210060133.9 | 申请日 | - |
公开(公告)号 | CN102662965A | 公开(公告)日 | 2012-09-12 |
申请公布号 | CN102662965A | 申请公布日 | 2012-09-12 |
分类号 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 不公告发明人 | 申请(专利权)人 | 上海引跑信息科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 201203 上海市浦东新区蔡伦路1623号A幢2层 | ||
法律状态 | - |
摘要
摘要 | 本发明为自动的发现互联网的热点新闻主题(或热点事件)而提供的一种方法,可以自动发现互联网上的各种新闻事件,并对其作简要的自动解释。步骤如下:首先,下载互联网上近期的新闻、博客、微博等类的网页并提取出标题和正文,其次,对提取出来的标题和正文进行分词获得一个词频向量,所有的文章组合在一起就会获得一个词频矩阵,再次,利用聚类算法对词频矩阵进行聚类分析,使主题相同的文章聚在一起,这样就获得了很多主题的聚簇,最后,提取每个聚簇的中心文章的标题以及每个聚簇的关键词来作为该簇的解释(即对该新闻主题的解释)。 |
