一种用于带验证分布式智能爬取网络信息的方法

基本信息

申请号 CN201710005162.8 申请日 -
公开(公告)号 CN106897357A 公开(公告)日 2017-06-27
申请公布号 CN106897357A 申请公布日 2017-06-27
分类号 G06F17/30;G06F9/50 分类 计算;推算;计数;
发明人 王文峰;杨振;许千帆 申请(专利权)人 北京京拍档科技股份有限公司
代理机构 北京中企鸿阳知识产权代理事务所(普通合伙) 代理人 郭鸿雁
地址 100085 北京市海淀区上地十街1号院6号楼3层345
法律状态 -

摘要

摘要 本发明提出了一种用于带验证分布式智能爬取网络信息的方法,包括:当判断网站的目标页面数据需要登录验证后才能获取时,从数据库获取相应的登录信息,通过浏览器自动登录并提交验证信息;启动定时任务使用cookie访问其网页并留活处理;启动网络抓包检测器,根据数据业务需求访问相应目标页面,进行HTTP报文分析,定制爬虫脚本,确定任务爬取数据量;由主节点发出广播,通知相应的任务节点,分发爬虫脚本,任务节点启动并向主节点任务队列申请任务,根据申请到的任务进行数据爬取,将爬取的目标数据存入队列,进而批量存入数据库。本发明实现可自动登录访问受保护页面,自动生成挖掘脚本的,快速的可扩展的分布式网页爬虫综合框架。