一种检测重复文本的方法及装置

基本信息

申请号 CN201310144339.4 申请日 -
公开(公告)号 CN103246640B 公开(公告)日 2016-08-03
申请公布号 CN103246640B 申请公布日 2016-08-03
分类号 G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 李鹏;孙熙;陆承恩 申请(专利权)人 北京十分科技有限公司
代理机构 - 代理人 -
地址 100007 北京市东城区安定门东大街28号雍和大厦B座15层
法律状态 -

摘要

摘要 本发明公开了一种检测文本重复的方法,用于实现文本是否重复的检测,提高检测的准确度。所述方法包括:获得待测文本和现有文本中的特征词和特征词序列;将待测文本中的每个特征词分别与现有文本中的每个特征词进行匹配;在特征词匹配成功时,获取匹配一致的特征词在待测文本特征词序列中的绝对位置与在现有文本特征词序列中的绝对位置;判断是否存在一组匹配一致的特征词,所述一组的所有特征词在待测文本与现有文本的特征词序列中的绝对位置有线性关系;若存在一组匹配一致的特征词,根据所述一组匹配一致的特征词在待测文本和现有文本的特征词序列中的绝对位置,确定待测文本与现有文本的重复区域。本发明还公开了用于实现所述方法的装置。