一种基于流水线的分布式多表连接方法及系统
基本信息
申请号 | CN201710361245.0 | 申请日 | - |
公开(公告)号 | CN107229692B | 公开(公告)日 | 2018-05-01 |
申请公布号 | CN107229692B | 申请公布日 | 2018-05-01 |
分类号 | G06F17/30 | 分类 | 计算;推算;计数; |
发明人 | 王宏志;孙旭冉;赵志强 | 申请(专利权)人 | 工创集团有限公司 |
代理机构 | 北京格允知识产权代理有限公司 | 代理人 | 哈工大大数据产业有限公司 |
地址 | 150001 黑龙江省哈尔滨市经开区哈平路集中区渤海路6号动漫基地F座509室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种基于流水线的分布式多表连接方法及系统,其中方法包括并行执行的以下步骤:映射处理单元从分布式文件系统读取待连接表,将所述待连接表进行映射处理后得到对应的数据块,并以每两个待连接表为一组输出;第二规约处理单元按序读取第二组至末尾组表的数据块,并对每组表的两个数据块进行哈希连接得到每组表的两表连接结果;第一规约处理单元读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果,并在等待第二规约机器群完成一组表的哈希连接后,将当前的多表连接结果与该组表的两表连接结果进行顺序连接,直至所有组表完成连接。本发明通过并行执行的流水线,既实现了查询操作时自适应分割,又能快速高效的完成。 |
