一种基于HDFS集群的海量数据分析统计方法
基本信息
申请号 | CN201710206439.3 | 申请日 | - |
公开(公告)号 | CN107025140B | 公开(公告)日 | 2018-03-09 |
申请公布号 | CN107025140B | 申请公布日 | 2018-03-09 |
分类号 | G06F9/50;G06F17/30 | 分类 | 计算;推算;计数; |
发明人 | 林森;唐宁;马娜 | 申请(专利权)人 | 天津快友世纪科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100020 北京市朝阳区东三环北路甲2号7幢315室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种基于HDFS集群的海量数据分析统计方法,其特征在于:包括建立支线调度器,采用配置文件创建支线,初始化支线,数据分组,数据统计输出,以及释放资源。本发明通过设置支线,将全部数据扫描的次数从数据维度数降为1次,从而大幅提高统计分析数据的效率。并且,由于采用“支线”,在完成一个数据维度的统计后,负责该维度统计的支线所占用的系统资源释放将得到释放,这些系统资源又可运用于其他数据统计和分析,在不增加硬件设备的情况下,满足了当前广告业界对业务数据统计的高需求。 |
