一种通用的互联网数据采集反反爬系统及方法

基本信息

申请号 CN201711037128.5 申请日 -
公开(公告)号 CN109729044B 公开(公告)日 2022-01-14
申请公布号 CN109729044B 申请公布日 2022-01-14
分类号 H04L9/40(2022.01)I;H04L67/02(2022.01)I;郑豪等.基于Java平台的分布式网络爬虫系统研究.《科技创新与应用》.2017,(第1期),第112页.;何俊杰.教育新闻平台的优化设计与实现.《中国优秀硕士学位论文全文数据库 信息科级辑》.2017,正文第3章第3.4节.;路过你的苦.爬虫间隔抓取服务器网页.《https://www.cnblogs.com/siliconvalley/archive/2013/05/27/3102709.html》.2013,第1-5页.;邹科文等.网络爬虫针对“反爬”网站的爬取策略研究.《电脑知识与技术》.2016,第12卷(第7期),第61-63页. 分类 电通信技术;
发明人 白晓哲;尚林林 申请(专利权)人 北京宸瑞科技股份有限公司
代理机构 北京康思博达知识产权代理事务所(普通合伙) 代理人 刘冬梅;路永斌
地址 100190北京市海淀区中关村北二条13号46幢1层102
法律状态 -

摘要

摘要 本发明公开了一种通用的互联网数据采集反反爬方法及系统,该方法通过UA验证单元(01)向服务器提供随机UA头、通过IP验证单元(02)向服务器提供随机代理IP、通过间隔验证单元(03)有根据的随机化请求间隔、通过授权状态验证单元(04)模拟登录、以及通过验证码识别单元(05)进行验证码识别或通过上述组合以分别应对互联网反爬验证中的请求UA验证、请求IP验证、请求间隔验证、授权状态验证、人工操作验证或其组合,上述方式可绕过对多种反爬验证手段组合的拦截,实现对网站信息的有效获取。