一种基于异步aiohttp多平台分布式数据爬取方法

基本信息

申请号 CN202110029155.8 申请日 -
公开(公告)号 CN112732996A 公开(公告)日 2021-04-30
申请公布号 CN112732996A 申请公布日 2021-04-30
分类号 G06F16/951;G06F16/955;G06F16/27 分类 计算;推算;计数;
发明人 廖杰;李林渡;张衍彬 申请(专利权)人 深圳市洪堡智慧餐饮科技有限公司
代理机构 深圳市深联知识产权代理事务所(普通合伙) 代理人 张琪
地址 518000 广东省深圳市福田区梅林街道孖岭社区凯丰路10号翠林大厦8层808A
法律状态 -

摘要

摘要 本发明涉及数据爬取技术领域,具体为一种基于异步aiohttp多平台分布式数据爬取方法,该方法的步骤如下:步骤一、服务中心分发url任务到客户端;步骤二、客户端从配置中心读取配置;步骤三、多个客户端对多个url任务进行下载内容;步骤四、对下载的内容进行解析并清洗存入数据库;步骤五、利用日志中心收集日志;步骤六、打开监控中心查看资源情况、查看结果。本发明通过任务多平台分发利用kafka发布‑订阅消息传递模式,只有订阅了topic的订阅者才会收到消息,这样可以把多平台进行区分,任务去重原理利用redis的set集合特性自带去重功能;本发明利用async异步特性进行发送请求,网络io不会造成阻塞,实现高并发,高可用,通过上述方式可有效提高数据爬取速度。