一种基于大数据分析的机顶盒收视方法及系统

基本信息

申请号 CN202010614212.4 申请日 -
公开(公告)号 CN111753008A 公开(公告)日 2020-10-09
申请公布号 CN111753008A 申请公布日 2020-10-09
分类号 G06F16/25(2019.01)I 分类 计算;推算;计数;
发明人 陈少静;王贵江 申请(专利权)人 珠海迈越信息技术有限公司
代理机构 广州三环专利商标代理有限公司 代理人 侯丽燕
地址 519000广东省珠海市金湾区红旗镇永达路66号3#厂房第四层401室
法律状态 -

摘要

摘要 本发明公开了一种基于大数据分析的机顶盒收视统计方法及系统,其特征方法包括步骤:实时接收及Flume程序收集客户端不断上传的海量日志文件;把采集到的数据存储到kafka分布式订阅系统中;对Kafka中的数据进行ETL数据清洗的操作,建立结构化数据后存储到hbase中;使用Hive关联Hbase中的数据,将结构化的数据文件映射为数据库表;使用Hive进行统计汇总,统计结果存储到Mysql中;web页面支撑实时查询hbase中的结构化数据以及Mysql的统计结果报表展示。系统包括数据采集单元,数据的预处理单元,数据清洗单元,数据分析处理单元,数据存储单元,数据统计汇总和呈现单元和可视化单元。本发明使大大的提高机顶盒收集统计数据的处理速度和能力,能支持多元化的信息收集。