一种ETL流程在Spark集群中运行的方法和装置
基本信息
申请号 | CN201911320034.8 | 申请日 | - |
公开(公告)号 | CN111159268B | 公开(公告)日 | 2022-01-04 |
申请公布号 | CN111159268B | 申请公布日 | 2022-01-04 |
分类号 | G06F16/25(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 梅纲;袁松彪 | 申请(专利权)人 | 武汉达梦数据库股份有限公司 |
代理机构 | 深圳市六加知识产权代理有限公司 | 代理人 | 向彬 |
地址 | 430000 湖北省武汉市东湖新技术开发区高新大道999号未来科技大厦C3栋16-19层 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及数据库技术领域,提供了一种ETL流程在Spark集群中运行的方法和装置。方法包括从所述元数据库里获取被执行流程的元数据信息,包括ETL功能组件、组件属性信息、连接和连接属性信息;在Spark应用程序里建立一个有向图结构SparkGraph对象,所述SparkGraph对象由多个SparkNode对象构成,并且,所述SparkNode对象之间由SparkEdge对象关联。本发明在Spark应用程序里引入图结构蕴含RDD之间变换的血缘关系,方便的实现了ETL流程在Spark集群上的执行,并且,利用Spark集群的并行执行特性,提高了对大数据迁移转换的ETL流程执行速度。 |
