一种网页链接特征模式识别算法
基本信息
申请号 | CN201210414950.X | 申请日 | - |
公开(公告)号 | CN103778164A | 公开(公告)日 | 2014-05-07 |
申请公布号 | CN103778164A | 申请公布日 | 2014-05-07 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 李旭日 | 申请(专利权)人 | 广州市邦富软件有限公司 |
代理机构 | - | 代理人 | - |
地址 | 510635 广东省广州市天河区天河软件园高塘新建区广州互联网产业园1号楼第五层A501-A510房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种网页链接特征模式识别算法,该算法采用基于内容特征提取的方式来进行去重,内容特征的提取方式主要基于代表内容含义的关键词序列提取,再将关键词序列利用散列算法生成唯一的指纹;如果指纹库为空,则将该指纹添加入指纹库。如果不为空,则将跟指纹与指纹库对比。如果存在相同指纹,则代表该网页已经有雷同网页存在;采用本技术方法的去重算法可以有效的应对在标题或者内容后添加随时码,或者对标题内容进行部分删减以及调整段落位置的情况,能够有效的提高性能。 |
