一种网页抓取周期调整方法和装置

基本信息

申请号 CN201310056627.4 申请日 -
公开(公告)号 CN103092999B 公开(公告)日 2016-06-29
申请公布号 CN103092999B 申请公布日 2016-06-29
分类号 G06F17/30 分类 计算;推算;计数;
发明人 崔世起;杨青 申请(专利权)人 人民搜索网络股份公司
代理机构 北京集佳知识产权代理有限公司 代理人 王宝筠
地址 100026 北京市朝阳区金台西路2号[4-1]15幢3层370室
法律状态 -

摘要

摘要 本申请提供了一种网页抓取周期调整方法和装置,该方法获取网络爬虫当前抓取的目标网页中所包含的链接集合以及该链接集合中的链接所指向的信息页;确定该链接集合中属于所述目标网页中新产生的链接,并将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对目标网页的抓取周期。该方法可以提高确定出的网页抓取周期的精度,减少资源浪费。