一种配置爬虫的方法与设备
基本信息
申请号 | CN202011098332.X | 申请日 | - |
公开(公告)号 | CN112231534A | 公开(公告)日 | 2021-01-15 |
申请公布号 | CN112231534A | 申请公布日 | 2021-01-15 |
分类号 | G06F16/951(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 不公告发明人 | 申请(专利权)人 | 上海蜜度信息技术有限公司 |
代理机构 | 上海百一领御专利代理事务所(普通合伙) | 代理人 | 上海蜜度信息技术有限公司 |
地址 | 201204上海市浦东新区自由贸易试验区张衡路198弄10号301AB室 | ||
法律状态 | - |
摘要
摘要 | 本申请的目的是提供一种配置爬虫的方案。该方案生成爬虫的配置模板,并保存所述配置模板,然后根据所述配置模板以及自定义配置信息,生成配置文件,再执行所述配置文件对目标应用进行爬取。本申请实施例可以将接口返回的解析通用部分抽取出来作为所述配置模板,基于各个爬虫自己独立的解析部分添加所述自定义配置信息,并生成所述配置文件,然后每个爬虫可以根据所述配置文件配置解析方式,从而大大减轻了程序员的负担,提高了工作效率。此外,本申请实施例通过采用主服务器与从服务器相配合的架构,实现多节点同时爬取数据,从而提高爬取数据的速度。 |
