一种基于浏览器端的爬虫、分布式爬虫系统及方法

基本信息

申请号 CN201810240792.8 申请日 -
公开(公告)号 CN108595510A 公开(公告)日 2018-09-28
申请公布号 CN108595510A 申请公布日 2018-09-28
分类号 G06F17/30;G06F9/50 分类 计算;推算;计数;
发明人 张琳艳;赵仁杰 申请(专利权)人 成都数聚城堡科技有限公司
代理机构 泰和泰律师事务所 代理人 成都数聚城堡科技有限公司
地址 610000 四川省成都市高新区天府大道中段688号3栋1401号
法律状态 -

摘要

摘要 本发明提供一种基于浏览器端的爬虫、分布式爬虫系统及方法。基于浏览器端的爬虫的程序嵌套在网页中,用户在浏览器中打开相应页面,爬虫程序被下载到本地并启动,在用户客户端新生成一个爬虫。基于浏览器端的分布式爬虫系统,包括基于浏览器端的爬虫和服务器子系统,服务器子系统的页面嵌套有所述基于浏览器端的爬虫的程序,用户在浏览器中打开所述页面,基于浏览器端的爬虫程序被启动,在用户客户端新生成一个爬虫。基于浏览器端的爬虫的工作方法,包括用户通过浏览器访问系统服务器,打开网页加载网页正文,在限定时间内加载成功则下载爬虫脚本,否则放弃本次爬虫等步骤。本客户端爬虫明显减轻服务器端的运算负荷,且IP池由用户客户端提供。