一种基于Spark框架的关系型数据库分布式读取方法及装置
基本信息
申请号 | CN202111055101.5 | 申请日 | - |
公开(公告)号 | CN113836197A | 公开(公告)日 | 2021-12-24 |
申请公布号 | CN113836197A | 申请公布日 | 2021-12-24 |
分类号 | G06F16/2458(2019.01)I;G06F16/242(2019.01)I;G06F16/28(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 吴珉杰;赵凡举;李垚;朱亮;陈国润;钱栋军;马文斌 | 申请(专利权)人 | 上海理想信息产业(集团)有限公司 |
代理机构 | 上海方澜知识产权代理事务所(普通合伙) | 代理人 | 李娜 |
地址 | 201315上海市浦东新区秀沿西路189号电信信息园区B4楼 | ||
法律状态 | - |
摘要
摘要 | 本发明实施例涉及分布式计算技术领域,公开了一种基于Spark框架的关系型数据库分布式读取方法及装置。该方法包括:获取待读取的数据表中的数据总量S以及分区数量n;S、n分别为正整数;根据数据总量S以及分区数量n得到每个分区对应的数据量m;对待读取的数据表中的数据的分区用字段的字段值进行排序之后,根据各个分区的数据量m查找得到各个分区对应的分区用字段的字段值;其中,分区用字段的数据类型为非数值型;根据各个分区对应的分区用字段的字段值组装成查询语句并分发到n个节点进行读取计算。本发明实施例可实现字符型分区字段的数据的并行处理,提高数据处理效率以及迁移速度。 |
