基于文本相似度和微博频道特征的博文排重方法

基本信息

申请号 CN201510061278.4 申请日 -
公开(公告)号 CN104615714B 公开(公告)日 2019-05-24
申请公布号 CN104615714B 申请公布日 2019-05-24
分类号 G06F16/335(2019.01)I; G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 尹柳 申请(专利权)人 北京中搜云商网络技术有限公司
代理机构 北京安博达知识产权代理有限公司 代理人 北京中搜云商网络技术有限公司
地址 100086 北京市海淀区北三环西路43号院2号楼5层08-09号
法律状态 -

摘要

摘要 本发明涉及一种基于文本相似度和微博频道特征的博文排重方法,所述方法包括(1)加载词库;(2)根据标识的频道类型,判断博文所属频道;(3)去噪;(4)计算特征向量;(5)分频道计算相似度;(6)重复检测。采用本发明进行微博频道排重,效果良好。扩展同义词特征,提高了相似度,弥补了传统排重对于特征敏感度高,排重力度小的缺点。在一般去噪处理的基础上,针对不同频道的噪声特点,进一步去噪,降低了干扰性。根据不同频道不同特点,采用不同的特征提取方法,提高了特征的准确性和有效度。综合决策相似度计算方法,相对于单一方法,漏排率低。