一种分布式大数据采集实现方法

基本信息

申请号 CN201910290171.5 申请日 -
公开(公告)号 CN110807137A 公开(公告)日 2020-02-18
申请公布号 CN110807137A 申请公布日 2020-02-18
分类号 G06F16/951;G06F16/955 分类 计算;推算;计数;
发明人 江晶 申请(专利权)人 上海丛云信息科技有限公司
代理机构 上海宏京知识产权代理事务所(普通合伙) 代理人 上海丛云信息科技有限公司
地址 201203 上海市浦东新区中国(上海)自由贸易试验区郭守敬路351号2号楼A653-25室
法律状态 -

摘要

摘要 本发明涉及大数据技术领域,尤其为一种分布式大数据采集实现方法,包括有抓取模块、IP代理池模块、解析模块、URL处理模块和数据存储模块,所述IP代理池模块设置有代理更新、代理分配,所述解析模块设置有URL数据抽取、基本数据抽取,所述URL处理模块设置有URL过滤,所述URL过滤连接有URL列队,所述URL列队连接有URL分配进程。本发明通过切换代理来保证系统能持续工作,消除限制时间的等待,这将大大提高系统的采集效率。