一种多网站并行爬取的IP代理池的构建系统和方法
基本信息
申请号 | CN202111407941.3 | 申请日 | - |
公开(公告)号 | CN114143290A | 公开(公告)日 | 2022-03-04 |
申请公布号 | CN114143290A | 申请公布日 | 2022-03-04 |
分类号 | H04L61/5061(2022.01)I;H04L61/5007(2022.01)I;H04L61/5053(2022.01)I;H04L67/56(2022.01)I;G06F16/951(2019.01)I | 分类 | 电通信技术; |
发明人 | 周小敏;应鸿晖;林国池;石易;麦丽娟;莫凡;林佳涛;黄福鸿;李高翔;卓采标;杨慧强;廖淑敏;宋宜昌;周毅;黄正国;吴冠标;李新;蒋维;曹勇;高欢 | 申请(专利权)人 | 天津市国瑞数码安全系统股份有限公司 |
代理机构 | 北京力量专利代理事务所(特殊普通合伙) | 代理人 | 王鸿远 |
地址 | 510075广东省广州市天河区建中路4号 | ||
法律状态 | - |
摘要
摘要 | 本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。 |
