一种用于分布式爬虫网址去重的方法

基本信息

申请号 CN202010303523.9 申请日 -
公开(公告)号 CN111522847A 公开(公告)日 2020-08-11
申请公布号 CN111522847A 申请公布日 2020-08-11
分类号 G06F16/2455(2019.01)I 分类 -
发明人 徐利东;远贵良 申请(专利权)人 山东贝赛信息科技有限公司
代理机构 济南瑞宸知识产权代理有限公司 代理人 山东贝赛信息科技有限公司
地址 250000山东省济南市经十路7000号汉峪金谷金融商务中心A4-(3)办公楼34层3401室
法律状态 -

摘要

摘要 本发明公开了一种用于分布式爬虫网址去重的方法,分布式爬虫网址去重的步骤如下:采集URL集合、初次计算、二次计算、判断数据是否存在一、判断数据是否存在二、完成采集。本发明取得如下技术效果:解决了大规模网页地址去重的瓶颈问题,该方法可以自由拓展分布式内存数据库的数量,满足任何数据规模的去重需求,由于基于内存数据库,所以去重效率非常高,由于是分布式,所有不存在内存溢出或者I/O超载的情况。