通过对网络资源调度提高网络爬虫抓取效率的方法和装置
基本信息
申请号 | CN201610240607.6 | 申请日 | - |
公开(公告)号 | CN105681478B | 公开(公告)日 | 2019-01-22 |
申请公布号 | CN105681478B | 申请公布日 | 2019-01-22 |
分类号 | H04L29/08 | 分类 | 电通信技术; |
发明人 | 陈俊良;曾琰;屈银川;黄志杰 | 申请(专利权)人 | 湖南四方天箭信息科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100055 北京市西城区广安门外大街248号1号楼1401室 | ||
法律状态 | - |
摘要
摘要 | 公开了通过对网络资源调度提高网络爬虫抓取效率的方法和装置。其通过从RMI远程爬虫客户端接收请求参数,并进行封装识别;把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;对各个网络线路进行优选,得到畅通的网络线路;通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。其能够使爬虫数据的抓取效率提高,不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁。 |
