一种适用于多数网站通用采集数据的爬虫系统及方法

基本信息

申请号 CN202011489232.X 申请日 -
公开(公告)号 CN112667873A 公开(公告)日 2021-04-16
申请公布号 CN112667873A 申请公布日 2021-04-16
分类号 G06F16/951;G06F16/955;G06F9/50;G06F16/27 分类 计算;推算;计数;
发明人 王勇;张可新;游若平 申请(专利权)人 北京华如慧云数据科技有限公司
代理机构 北京丰浩知识产权代理事务所(普通合伙) 代理人 李学康
地址 100094 北京市海淀区永丰产业基地永捷北路3号综合楼2层201-1室
法律状态 -

摘要

摘要 本发明公开了一种适用与多数网站通用采集数据的爬虫系统及方法,它能够避免因为其它解析操作浪费爬取时间,能使爬虫的效率达到最大。该系统包括任务存储和分发模块、爬虫后台和数据存储模块。本发明的有益效果在于:在整个爬虫系统开发完成后,只需要在添加配置各个网站及其采集规则后,不需要在改动源代码或是重复性编写程序的情况下爬取相对应的数据,减少重复性工作,提高在有新的需求或是网站变动时数据的采集效率,同时提高了系统的可维护性。