一种用于带验证分布式智能爬取网络信息的方法
基本信息
申请号 | CN201710005162.8 | 申请日 | - |
公开(公告)号 | CN106897357A | 公开(公告)日 | 2017-06-27 |
申请公布号 | CN106897357A | 申请公布日 | 2017-06-27 |
分类号 | G06F17/30;G06F9/50 | 分类 | 计算;推算;计数; |
发明人 | 王文峰;杨振;许千帆 | 申请(专利权)人 | 北京京拍档科技股份有限公司 |
代理机构 | 北京中企鸿阳知识产权代理事务所(普通合伙) | 代理人 | 郭鸿雁 |
地址 | 100085 北京市海淀区上地十街1号院6号楼3层345 | ||
法律状态 | - |
摘要
摘要 | 本发明提出了一种用于带验证分布式智能爬取网络信息的方法,包括:当判断网站的目标页面数据需要登录验证后才能获取时,从数据库获取相应的登录信息,通过浏览器自动登录并提交验证信息;启动定时任务使用cookie访问其网页并留活处理;启动网络抓包检测器,根据数据业务需求访问相应目标页面,进行HTTP报文分析,定制爬虫脚本,确定任务爬取数据量;由主节点发出广播,通知相应的任务节点,分发爬虫脚本,任务节点启动并向主节点任务队列申请任务,根据申请到的任务进行数据爬取,将爬取的目标数据存入队列,进而批量存入数据库。本发明实现可自动登录访问受保护页面,自动生成挖掘脚本的,快速的可扩展的分布式网页爬虫综合框架。 |
