一种基于spark的大数据处理方法

基本信息

申请号 CN202010063433.7 申请日 -
公开(公告)号 CN113139003A 公开(公告)日 2021-07-20
申请公布号 CN113139003A 申请公布日 2021-07-20
分类号 G06F16/2455(2019.01)I;G06F16/2458(2019.01)I;G06F16/27(2019.01)I 分类 计算;推算;计数;
发明人 李方进 申请(专利权)人 上海静客网络科技有限公司
代理机构 北京挺立专利事务所(普通合伙) 代理人 田黎绒
地址 201913上海市崇明区长兴镇凤滨路258号润丰农贸市场东门16号房
法律状态 -

摘要

摘要 本发明公开了一种基于spark的大数据处理方法,包括将数据处理结果需要进行比对的两方数据同时缓存至中间库,所述两方数据包括第一方数据和第二方数据;根据第一方数据的数量分配多个处理第一方数据的第一副线程,根据第二方数据的数量分配多个处理第二方数据的第二副线程;多个第一副线程均完成数据处理时,触发:第一主线程对所有副线程的数据处理结果进行收集,并生成第一方数据的处理结果;多个第二副线程均完成数据处理时,触发:第二主线程对所有副线程的数据处理结果进行收集,并生成第二方数据的处理结果;将第一方数据的处理结果和第二方数据的处理结果同时输出。解决了在企业对账中,不能输出对账结果的问题。