网页筛选方法及装置

基本信息

申请号 CN201310053601.4 申请日 -
公开(公告)号 CN103116638B 公开(公告)日 2017-02-08
申请公布号 CN103116638B 申请公布日 2017-02-08
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 张恒;崔世起;杨青 申请(专利权)人 人民搜索网络股份公司
代理机构 北京集佳知识产权代理有限公司 代理人 王宝筠
地址 100026 北京市朝阳区金台西路2号[4-1]15幢3层370室
法律状态 -

摘要

摘要 本发明公开了一种网页筛选方法及装置。该方法包括:抓取预设种子网页;获取预设种子网页中所包含的URL信息;计算URL信息对应的网页质量分数;按照预设网络地址信息,将URL信息划分到相应的候选集合中;从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息,其中,筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数,预设压力配额为依据网络地址所对应的抓取压力值确定出;将筛选出的URL信息对应的网页作为目标抓取网页。通过利用本方案,实现了在保证网页质量的前提下,降低网页抓取失败风险或站点封禁风险,进而提高抓取网页的成功率的目的。