一种参数化爬虫下载方法、装置、设备及存储介质

基本信息

申请号 CN202111225827.9 申请日 -
公开(公告)号 CN113965555A 公开(公告)日 2022-01-21
申请公布号 CN113965555A 申请公布日 2022-01-21
分类号 H04L67/02(2022.01)I;G06F16/951(2019.01)I 分类 电通信技术;
发明人 刘峰;吕成钰;隋国栋;刘超 申请(专利权)人 北京值得买科技股份有限公司
代理机构 - 代理人 -
地址 100071北京市丰台区汽车博物馆东路1号院3号楼33层3801
法律状态 -

摘要

摘要 本发明公开了一种参数化爬虫下载方法、装置、设备及存储介质,包括:根据上游业务传入的Http链接的数量决定需要启动的下载库;对所述下载库进行二次开发,增加Http反扒参数,分析Http链接的特性,启动避免请求失败功能;对所述下载库进行二次开发,增加请求参数,设定Http请求的默认请求头,修改请求头的信息的功能;根据设定的Http反扒参数中的关键字和服务端响应的请求状态码,识别当前请求;返回下载内容。本申请使整个下载过程通过传参完成各种下载操作,自动启动并发下载、简单启用各类代理、对下载结果进行标签化验证,在对有反扒策略的目标网站进行下载时增效明显。