一种基于异步aiohttp多平台分布式数据爬取方法
基本信息
申请号 | CN202110029155.8 | 申请日 | - |
公开(公告)号 | CN112732996A | 公开(公告)日 | 2021-04-30 |
申请公布号 | CN112732996A | 申请公布日 | 2021-04-30 |
分类号 | G06F16/951;G06F16/955;G06F16/27 | 分类 | 计算;推算;计数; |
发明人 | 廖杰;李林渡;张衍彬 | 申请(专利权)人 | 深圳市洪堡智慧餐饮科技有限公司 |
代理机构 | 深圳市深联知识产权代理事务所(普通合伙) | 代理人 | 张琪 |
地址 | 518000 广东省深圳市福田区梅林街道孖岭社区凯丰路10号翠林大厦8层808A | ||
法律状态 | - |
摘要
摘要 | 本发明涉及数据爬取技术领域,具体为一种基于异步aiohttp多平台分布式数据爬取方法,该方法的步骤如下:步骤一、服务中心分发url任务到客户端;步骤二、客户端从配置中心读取配置;步骤三、多个客户端对多个url任务进行下载内容;步骤四、对下载的内容进行解析并清洗存入数据库;步骤五、利用日志中心收集日志;步骤六、打开监控中心查看资源情况、查看结果。本发明通过任务多平台分发利用kafka发布‑订阅消息传递模式,只有订阅了topic的订阅者才会收到消息,这样可以把多平台进行区分,任务去重原理利用redis的set集合特性自带去重功能;本发明利用async异步特性进行发送请求,网络io不会造成阻塞,实现高并发,高可用,通过上述方式可有效提高数据爬取速度。 |
