一种分布式垂直爬虫服务系统的优化方法

基本信息

申请号 CN201510579329.2 申请日 -
公开(公告)号 CN105260388A 公开(公告)日 2016-01-20
申请公布号 CN105260388A 申请公布日 2016-01-20
分类号 G06F17/30(2006.01)I;G06F9/44(2006.01)I 分类 计算;推算;计数;
发明人 闫峰;李桂兵;魏继超 申请(专利权)人 广州极数宝数据服务有限公司
代理机构 广州知友专利商标代理有限公司 代理人 宣国华
地址 510635 广东省广州市天河区天河北路890号9楼自编902房
法律状态 -

摘要

摘要 本发明的目的在于提供一种分布式垂直爬虫服务系统的优化方法,该方法将原有的爬虫服务系统拆分为下载服务和页面分析逻辑两部分,且将该下载服务和分析逻辑均部署在多个云主机上,任务队列也拆分为下载任务队列和分析任务队列。本发明方法优化的爬虫服务系统能够提升垂直爬虫在处理大量数据信息时的效率,增强对对采用了延迟加载的动态HTML页面的抓取能力,对于页面下载逻辑和分析处理逻辑进行有效地管理和扩展,对网站主的爬虫防御策略提供有效地规避。