基于Presto的动态分桶方法、系统、设备及可读存储介质
基本信息
申请号 | CN202011310738.X | 申请日 | - |
公开(公告)号 | CN112445776A | 公开(公告)日 | 2021-03-05 |
申请公布号 | CN112445776A | 申请公布日 | 2021-03-05 |
分类号 | G06F16/182(2019.01)I;G06F16/16(2019.01)I;G06F16/14(2019.01)I;G06F16/172(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 于扬 | 申请(专利权)人 | 北京易观数智科技股份有限公司 |
代理机构 | 北京知呱呱知识产权代理有限公司 | 代理人 | 杜立军 |
地址 | 100020北京市朝阳区酒仙桥路10号25号楼三层305室 | ||
法律状态 | - |
摘要
摘要 | 本申请实施例公开了基于Presto的动态分桶方法、系统、设备及可读存储介质,所述方法包括:获取数据集,将所述数据集根据逻辑主键进行排序,并根据所述逻辑主键的取值范围和计算节点数进行预分桶,存储分桶文件;所述分桶文件按照逻辑主键进行排序;根据数据量和历史查询记录确定预估查询峰值内存;根据所述预估查询峰值内存、当前系统正在执行的查询个数和当前分布式计算系统的计算节点数,计算目标桶数和单节点桶并发数;根据所述目标桶数和所述单节点桶并发数调整正在执行的查询中的分桶粒度,得到每个分桶的取值范围;根据存储的分桶文件信息、每个分桶的取值范围,进行文件切分。节省了磁盘及网络IO,在有限的CPU和内存下发挥最佳计算性能。 |
