一种面向网络文本大数据的话题检测或跟踪方法
基本信息
申请号 | CN201410670235.1 | 申请日 | - |
公开(公告)号 | CN104462253B | 公开(公告)日 | 2018-05-18 |
申请公布号 | CN104462253B | 申请公布日 | 2018-05-18 |
分类号 | G06F17/30 | 分类 | 计算;推算;计数; |
发明人 | 邹复好;徐涛;周可;范瑞;郑胜;张胜;陈进才;李春花 | 申请(专利权)人 | 武汉数为科技有限公司 |
代理机构 | 武汉东喻专利代理事务所(普通合伙) | 代理人 | 宋业斌 |
地址 | 430074 湖北省武汉市东湖高新技术开发区高新大道999号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种面向网络文本大数据的话题检测或跟踪方法,其基本思路如下:通过检测不同文档中共同出现的关键词,构造关键词的图模型及对应的邻接矩阵,并将其与谱聚类相结合,提出了一种新的话题检测模型,计算得到每篇文档关于话题的概率分布,当新文档到达时计算其与历史话题所表示属性集的相似度,实现话题的自动检测或跟踪,并通过MapReduce编程模型来实现分布式的方法。本发明的特点在于,用关键词的共现关系对话题进行显示挖掘,而非隐式,面向大数据采用分布式计算,将互联网中的数据信息进行聚类,可拓展性更强,可处理的数据量更大,极大地提高了吞吐率。 |
