网站内容更新检测评价方法及系统
基本信息
申请号 | CN201310422723.6 | 申请日 | - |
公开(公告)号 | CN103544213A | 公开(公告)日 | 2014-01-29 |
申请公布号 | CN103544213A | 申请公布日 | 2014-01-29 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 初殿松 | 申请(专利权)人 | 山东英网资讯股份有限公司 |
代理机构 | 青岛联信知识产权代理事务所 | 代理人 | 青岛英网资讯股份有限公司;青岛亚安网络科技有限公司 |
地址 | 266000 山东省青岛市市南区香港中路100号中商大厦2111室 | ||
法律状态 | - |
摘要
摘要 | 一种网站内容更新检测及评价方法,通过抓取原始页面和目标页面的源代码,解析原始页面和目标页面的DOM树模型,并对DOM树的相似度进行比较,得出原始页面与目标页面的相似度值,当相似度值大于设定的相似度值时,认为页面没有更新,反之则认为页面有更新。一种鉴别网站更新的系统,包括解析模块、简单比较模块、标签比较模块和文本比较模块,该系统可以快速、准确的完成对网站内容更新的检测。 |
