一种基于Spark框架的关系型数据库分布式读取方法及装置

基本信息

申请号 CN202111055101.5 申请日 -
公开(公告)号 CN113836197A 公开(公告)日 2021-12-24
申请公布号 CN113836197A 申请公布日 2021-12-24
分类号 G06F16/2458(2019.01)I;G06F16/242(2019.01)I;G06F16/28(2019.01)I 分类 计算;推算;计数;
发明人 吴珉杰;赵凡举;李垚;朱亮;陈国润;钱栋军;马文斌 申请(专利权)人 上海理想信息产业(集团)有限公司
代理机构 上海方澜知识产权代理事务所(普通合伙) 代理人 李娜
地址 201315上海市浦东新区秀沿西路189号电信信息园区B4楼
法律状态 -

摘要

摘要 本发明实施例涉及分布式计算技术领域,公开了一种基于Spark框架的关系型数据库分布式读取方法及装置。该方法包括:获取待读取的数据表中的数据总量S以及分区数量n;S、n分别为正整数;根据数据总量S以及分区数量n得到每个分区对应的数据量m;对待读取的数据表中的数据的分区用字段的字段值进行排序之后,根据各个分区的数据量m查找得到各个分区对应的分区用字段的字段值;其中,分区用字段的数据类型为非数值型;根据各个分区对应的分区用字段的字段值组装成查询语句并分发到n个节点进行读取计算。本发明实施例可实现字符型分区字段的数据的并行处理,提高数据处理效率以及迁移速度。