一种用于分布式爬虫网址去重的方法
基本信息
申请号 | CN202010303523.9 | 申请日 | - |
公开(公告)号 | CN111522847A | 公开(公告)日 | 2020-08-11 |
申请公布号 | CN111522847A | 申请公布日 | 2020-08-11 |
分类号 | G06F16/2455(2019.01)I | 分类 | - |
发明人 | 徐利东;远贵良 | 申请(专利权)人 | 山东贝赛信息科技有限公司 |
代理机构 | 济南瑞宸知识产权代理有限公司 | 代理人 | 山东贝赛信息科技有限公司 |
地址 | 250000山东省济南市经十路7000号汉峪金谷金融商务中心A4-(3)办公楼34层3401室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种用于分布式爬虫网址去重的方法,分布式爬虫网址去重的步骤如下:采集URL集合、初次计算、二次计算、判断数据是否存在一、判断数据是否存在二、完成采集。本发明取得如下技术效果:解决了大规模网页地址去重的瓶颈问题,该方法可以自由拓展分布式内存数据库的数量,满足任何数据规模的去重需求,由于基于内存数据库,所以去重效率非常高,由于是分布式,所有不存在内存溢出或者I/O超载的情况。 |
