一种参数化爬虫下载方法、装置、设备及存储介质
基本信息
申请号 | CN202111225827.9 | 申请日 | - |
公开(公告)号 | CN113965555A | 公开(公告)日 | 2022-01-21 |
申请公布号 | CN113965555A | 申请公布日 | 2022-01-21 |
分类号 | H04L67/02(2022.01)I;G06F16/951(2019.01)I | 分类 | 电通信技术; |
发明人 | 刘峰;吕成钰;隋国栋;刘超 | 申请(专利权)人 | 北京值得买科技股份有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100071北京市丰台区汽车博物馆东路1号院3号楼33层3801 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种参数化爬虫下载方法、装置、设备及存储介质,包括:根据上游业务传入的Http链接的数量决定需要启动的下载库;对所述下载库进行二次开发,增加Http反扒参数,分析Http链接的特性,启动避免请求失败功能;对所述下载库进行二次开发,增加请求参数,设定Http请求的默认请求头,修改请求头的信息的功能;根据设定的Http反扒参数中的关键字和服务端响应的请求状态码,识别当前请求;返回下载内容。本申请使整个下载过程通过传参完成各种下载操作,自动启动并发下载、简单启用各类代理、对下载结果进行标签化验证,在对有反扒策略的目标网站进行下载时增效明显。 |
