网页筛选方法及装置
基本信息
申请号 | CN201310053601.4 | 申请日 | - |
公开(公告)号 | CN103116638B | 公开(公告)日 | 2017-02-08 |
申请公布号 | CN103116638B | 申请公布日 | 2017-02-08 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 张恒;崔世起;杨青 | 申请(专利权)人 | 人民搜索网络股份公司 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 王宝筠 |
地址 | 100026 北京市朝阳区金台西路2号[4-1]15幢3层370室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种网页筛选方法及装置。该方法包括:抓取预设种子网页;获取预设种子网页中所包含的URL信息;计算URL信息对应的网页质量分数;按照预设网络地址信息,将URL信息划分到相应的候选集合中;从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息,其中,筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数,预设压力配额为依据网络地址所对应的抓取压力值确定出;将筛选出的URL信息对应的网页作为目标抓取网页。通过利用本方案,实现了在保证网页质量的前提下,降低网页抓取失败风险或站点封禁风险,进而提高抓取网页的成功率的目的。 |
