通过对网络资源调度提高网络爬虫抓取效率的方法和装置

基本信息

申请号 CN201610240607.6 申请日 -
公开(公告)号 CN105681478B 公开(公告)日 2019-01-22
申请公布号 CN105681478B 申请公布日 2019-01-22
分类号 H04L29/08 分类 电通信技术;
发明人 陈俊良;曾琰;屈银川;黄志杰 申请(专利权)人 湖南四方天箭信息科技有限公司
代理机构 - 代理人 -
地址 100055 北京市西城区广安门外大街248号1号楼1401室
法律状态 -

摘要

摘要 公开了通过对网络资源调度提高网络爬虫抓取效率的方法和装置。其通过从RMI远程爬虫客户端接收请求参数,并进行封装识别;把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;对各个网络线路进行优选,得到畅通的网络线路;通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。其能够使爬虫数据的抓取效率提高,不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁。