一种基于HDFS集群的海量数据分析统计方法

基本信息

申请号 CN201710206439.3 申请日 -
公开(公告)号 CN107025140B 公开(公告)日 2018-03-09
申请公布号 CN107025140B 申请公布日 2018-03-09
分类号 G06F9/50;G06F17/30 分类 计算;推算;计数;
发明人 林森;唐宁;马娜 申请(专利权)人 天津快友世纪科技有限公司
代理机构 - 代理人 -
地址 100020 北京市朝阳区东三环北路甲2号7幢315室
法律状态 -

摘要

摘要 本发明涉及一种基于HDFS集群的海量数据分析统计方法,其特征在于:包括建立支线调度器,采用配置文件创建支线,初始化支线,数据分组,数据统计输出,以及释放资源。本发明通过设置支线,将全部数据扫描的次数从数据维度数降为1次,从而大幅提高统计分析数据的效率。并且,由于采用“支线”,在完成一个数据维度的统计后,负责该维度统计的支线所占用的系统资源释放将得到释放,这些系统资源又可运用于其他数据统计和分析,在不增加硬件设备的情况下,满足了当前广告业界对业务数据统计的高需求。