基于云计算技术的数据采集系统及方法

基本信息

申请号 CN201710416326.6 申请日 -
公开(公告)号 CN107317724A 公开(公告)日 2017-11-03
申请公布号 CN107317724A 申请公布日 2017-11-03
分类号 H04L12/26(2006.01)I;H04L12/24(2006.01)I;H04L29/08(2006.01)I 分类 电通信技术;
发明人 刘刚;谭焕云;姜志刚;黄元庆;张振海 申请(专利权)人 中证信用增进股份有限公司
代理机构 - 代理人 -
地址 518038 广东省深圳市福田区深南大道2012号深圳证券交易所44楼
法律状态 -

摘要

摘要 本发明公开了一种基于云计算技术的数据采集系统及方法,系统采用分布式分层协作、可水平扩展的异步队列方案,包括任务调度器、生成器、下载器及解析器;任务调度器根据每一个数据采集任务调度所述生成器、下载器及解析器,以采集到与每一个数据采集任务相关的数据;生成器根据所述任务调度器的调度以生成与该数据采集任务对应的每一个待采集网站相关页面的URI;下载器用于根据所述任务调度器的调度以下载每一个待采集网站相关页面的URI所对应的原始数据;解析器用于根据任务调度器的调度以对所述下载器下载的原始数据解析为结构化数据。采集系统可以根据任务量及负载情况,通过快速部署功能实现分布式的弹性拓展,快速提高系统的负载能力。