兼容多种大数据存储的数据处理方法、系统及其建模方法

基本信息

申请号 CN201710501658.4 申请日 -
公开(公告)号 CN107247799A 公开(公告)日 2017-10-13
申请公布号 CN107247799A 申请公布日 2017-10-13
分类号 G06F17/30 分类 计算;推算;计数;
发明人 殷晋 申请(专利权)人 北京天机数测数据科技有限公司
代理机构 - 代理人 -
地址 100125 北京市朝阳区霞光里9号16层1601室
法律状态 -

摘要

摘要 本发明涉及一种兼容多种大数据存储的数据处理方法、系统及其建模方法,该建模方法是基于JSON格式书写及开发数据建模语言,包括在根下建立dataSource、query、mapping、outputTable、sql和partition六个子结点,采用数据处理系统处理数据时,可以通过数源接入系统接入相应数据源的源数据,再利用数据抽取单元对接入的源数据进行抽取,再将抽取得到的RDD数据集交由Spark数据引擎根据需要进行多次计算和迭代,最后通过数据输出格式转换器统一或定制数据输出格式。借此,可以实现各种不同数据的存储与分析平台间的统一数据查询、统一数据分析、统一数据输出,降低数据分析的难度与复杂度。