一种分布式大数据采集实现方法
基本信息
申请号 | CN201910290171.5 | 申请日 | - |
公开(公告)号 | CN110807137A | 公开(公告)日 | 2020-02-18 |
申请公布号 | CN110807137A | 申请公布日 | 2020-02-18 |
分类号 | G06F16/951;G06F16/955 | 分类 | 计算;推算;计数; |
发明人 | 江晶 | 申请(专利权)人 | 上海丛云信息科技有限公司 |
代理机构 | 上海宏京知识产权代理事务所(普通合伙) | 代理人 | 上海丛云信息科技有限公司 |
地址 | 201203 上海市浦东新区中国(上海)自由贸易试验区郭守敬路351号2号楼A653-25室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及大数据技术领域,尤其为一种分布式大数据采集实现方法,包括有抓取模块、IP代理池模块、解析模块、URL处理模块和数据存储模块,所述IP代理池模块设置有代理更新、代理分配,所述解析模块设置有URL数据抽取、基本数据抽取,所述URL处理模块设置有URL过滤,所述URL过滤连接有URL列队,所述URL列队连接有URL分配进程。本发明通过切换代理来保证系统能持续工作,消除限制时间的等待,这将大大提高系统的采集效率。 |
