一种docker分布式网页爬虫方法及系统
基本信息
申请号 | CN201911353722.4 | 申请日 | - |
公开(公告)号 | CN113032652A | 公开(公告)日 | 2021-06-25 |
申请公布号 | CN113032652A | 申请公布日 | 2021-06-25 |
分类号 | G06F16/951(2019.01)I;G06F16/955(2019.01)I;G06F9/455(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 孙香娟;姜波;周彦其;李鑫 | 申请(专利权)人 | 中文在线集团股份有限公司 |
代理机构 | 北京市盛峰律师事务所 | 代理人 | 于国强 |
地址 | 100005北京市东城区东总布胡同58号天润财富中心14层1401单元 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种docker分布式网页爬虫方法及系统,所述方法包括如下步骤,S1、接收目标URL的爬取需求,根据爬取需求指明爬取内容和起始URL;S2、按照预设爬虫规则编写数据采集指令;S3、根据所述数据采集指令调用相应的采集程序,采集指定的数据资源;S4、解析采集到的指定的数据资源,获取并存储符合设定爬虫规则的URL;S5、重复步骤S2‑S4,直到目标URL采集完毕,或者是,采集的符合设定爬虫规则的URL达到预设最大采集数量,停止采集。优点是:提高了网页爬虫程序采集和部署速度,并且提高了扩展性。 |
