一种分布式爬虫系统任务抓取系统和方法
基本信息
申请号 | CN201510564985.5 | 申请日 | - |
公开(公告)号 | CN106503017A | 公开(公告)日 | 2017-03-15 |
申请公布号 | CN106503017A | 申请公布日 | 2017-03-15 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 张国强 | 申请(专利权)人 | 摩贝(上海)生物科技有限公司 |
代理机构 | 上海翰信知识产权代理事务所(普通合伙) | 代理人 | 摩贝(上海)生物科技有限公司;上海摩库数据技术有限公司 |
地址 | 200131 上海市浦东新区自由贸易试验区富特北路399号1幢楼6层6020室 | ||
法律状态 | - |
摘要
摘要 | 本发明包括爬虫控制端、爬虫抓取端、任务监控模块,爬虫抓取端获取相应的任务,将任务数据传送给爬虫控制端;爬虫控制端定义任务编号和任务超时时间,并产生任务分发事件,存储任务分发的时间戳数据;将任务分发给任务监控模块和爬虫抓取端,爬虫抓取端对抓取任务执行相应的抓取逻辑,将任务完成信息传送给爬虫控制端,若发生异常情况,导致抓取任务无法正确的被执行时,可以通过任务监控模块重新将任务推送给爬虫控制端,避免了由于网络原因、任务无法执行的情况。 |
