基于文本相似度和微博频道特征的博文排重方法
基本信息
申请号 | CN201510061278.4 | 申请日 | - |
公开(公告)号 | CN104615714B | 公开(公告)日 | 2019-05-24 |
申请公布号 | CN104615714B | 申请公布日 | 2019-05-24 |
分类号 | G06F16/335(2019.01)I; G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 尹柳 | 申请(专利权)人 | 北京中搜云商网络技术有限公司 |
代理机构 | 北京安博达知识产权代理有限公司 | 代理人 | 北京中搜云商网络技术有限公司 |
地址 | 100086 北京市海淀区北三环西路43号院2号楼5层08-09号 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种基于文本相似度和微博频道特征的博文排重方法,所述方法包括(1)加载词库;(2)根据标识的频道类型,判断博文所属频道;(3)去噪;(4)计算特征向量;(5)分频道计算相似度;(6)重复检测。采用本发明进行微博频道排重,效果良好。扩展同义词特征,提高了相似度,弥补了传统排重对于特征敏感度高,排重力度小的缺点。在一般去噪处理的基础上,针对不同频道的噪声特点,进一步去噪,降低了干扰性。根据不同频道不同特点,采用不同的特征提取方法,提高了特征的准确性和有效度。综合决策相似度计算方法,相对于单一方法,漏排率低。 |
