一种分布式爬虫系统任务抓取系统和方法

基本信息

申请号 CN201510564985.5 申请日 -
公开(公告)号 CN106503017A 公开(公告)日 2017-03-15
申请公布号 CN106503017A 申请公布日 2017-03-15
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 张国强 申请(专利权)人 摩贝(上海)生物科技有限公司
代理机构 上海翰信知识产权代理事务所(普通合伙) 代理人 摩贝(上海)生物科技有限公司;上海摩库数据技术有限公司
地址 200131 上海市浦东新区自由贸易试验区富特北路399号1幢楼6层6020室
法律状态 -

摘要

摘要 本发明包括爬虫控制端、爬虫抓取端、任务监控模块,爬虫抓取端获取相应的任务,将任务数据传送给爬虫控制端;爬虫控制端定义任务编号和任务超时时间,并产生任务分发事件,存储任务分发的时间戳数据;将任务分发给任务监控模块和爬虫抓取端,爬虫抓取端对抓取任务执行相应的抓取逻辑,将任务完成信息传送给爬虫控制端,若发生异常情况,导致抓取任务无法正确的被执行时,可以通过任务监控模块重新将任务推送给爬虫控制端,避免了由于网络原因、任务无法执行的情况。