一种面向网络文本大数据的话题检测或跟踪方法

基本信息

申请号 CN201410670235.1 申请日 -
公开(公告)号 CN104462253B 公开(公告)日 2018-05-18
申请公布号 CN104462253B 申请公布日 2018-05-18
分类号 G06F17/30 分类 计算;推算;计数;
发明人 邹复好;徐涛;周可;范瑞;郑胜;张胜;陈进才;李春花 申请(专利权)人 武汉数为科技有限公司
代理机构 武汉东喻专利代理事务所(普通合伙) 代理人 宋业斌
地址 430074 湖北省武汉市东湖高新技术开发区高新大道999号
法律状态 -

摘要

摘要 本发明公开了一种面向网络文本大数据的话题检测或跟踪方法,其基本思路如下:通过检测不同文档中共同出现的关键词,构造关键词的图模型及对应的邻接矩阵,并将其与谱聚类相结合,提出了一种新的话题检测模型,计算得到每篇文档关于话题的概率分布,当新文档到达时计算其与历史话题所表示属性集的相似度,实现话题的自动检测或跟踪,并通过MapReduce编程模型来实现分布式的方法。本发明的特点在于,用关键词的共现关系对话题进行显示挖掘,而非隐式,面向大数据采用分布式计算,将互联网中的数据信息进行聚类,可拓展性更强,可处理的数据量更大,极大地提高了吞吐率。