自演进的网络自适应爬虫方法及系统

基本信息

申请号 CN201710798931.4 申请日 -
公开(公告)号 CN107580052A 公开(公告)日 2018-01-12
申请公布号 CN107580052A 申请公布日 2018-01-12
分类号 H04L29/08;H04L29/12;G06F17/30;G06N5/02 分类 电通信技术;
发明人 何有树;莫默;唐东;周维军 申请(专利权)人 翼果(深圳)科技有限公司
代理机构 - 代理人 -
地址 518000 广东省深圳市南山区粤海街道软件产业基地4栋B座203
法律状态 -

摘要

摘要 本发明实施例公开了一种自演进的网络自适应爬虫方法及系统,所述爬虫方法包括:步骤1:接收采集任务,若接收为IP地址进入步骤4,接收为域名则查询是否存在于自建的DNS系统,若存在,则查询记录是否超时,若未超时则进入步骤4;步骤2:若不存在或超时则查询目标网站的所有IP地址;步骤3:探测IP地址并生成域名IP列表并更新;步骤4:探测IP地址的网络环境,结合探测结果分配爬虫任务;步骤5:预测采集模型并设置爬虫,采集数据。本发明实施例通过自建DNS系统结合网络环境生成负荷分担任务以及通过预测采集模型,解决了爬虫采集能力差及需经常修改配置参数问题,进而提高了爬虫的采集能力同时使爬虫能自动适应目标网站的配置项。