一种基于spark的大数据处理方法
基本信息
申请号 | CN202010063433.7 | 申请日 | - |
公开(公告)号 | CN113139003A | 公开(公告)日 | 2021-07-20 |
申请公布号 | CN113139003A | 申请公布日 | 2021-07-20 |
分类号 | G06F16/2455(2019.01)I;G06F16/2458(2019.01)I;G06F16/27(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 李方进 | 申请(专利权)人 | 上海静客网络科技有限公司 |
代理机构 | 北京挺立专利事务所(普通合伙) | 代理人 | 田黎绒 |
地址 | 201913上海市崇明区长兴镇凤滨路258号润丰农贸市场东门16号房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于spark的大数据处理方法,包括将数据处理结果需要进行比对的两方数据同时缓存至中间库,所述两方数据包括第一方数据和第二方数据;根据第一方数据的数量分配多个处理第一方数据的第一副线程,根据第二方数据的数量分配多个处理第二方数据的第二副线程;多个第一副线程均完成数据处理时,触发:第一主线程对所有副线程的数据处理结果进行收集,并生成第一方数据的处理结果;多个第二副线程均完成数据处理时,触发:第二主线程对所有副线程的数据处理结果进行收集,并生成第二方数据的处理结果;将第一方数据的处理结果和第二方数据的处理结果同时输出。解决了在企业对账中,不能输出对账结果的问题。 |
