超大数据集的合并方法及装置

基本信息

申请号 CN201810772324.5 申请日 -
公开(公告)号 CN109033295B 公开(公告)日 2021-07-02
申请公布号 CN109033295B 申请公布日 2021-07-02
分类号 G06F16/25;G06F16/2455 分类 计算;推算;计数;
发明人 史贵振;高福海;张莹莹 申请(专利权)人 成都亚信网络安全产业技术研究院有限公司
代理机构 北京中博世达专利商标代理有限公司 代理人 申健
地址 610213 四川省成都市天府新区华阳街道天府大道南段846号
法律状态 -

摘要

摘要 本发明提供了一种超大数据集的合并方法及装置,涉及数据处理技术领域,用于解决现有技术中超大数据集的合并效率偏低的问题。本发明提供的方法及装置基于分布式计算实现,包括:将第一数据集的第一关联主键转换为预设字段类型的数据后根据第一关联主键对第一数据集进行分片,获取预设数量的第一数据分片并将其缓存至预设缓存系统;将第二数据集的第二关联主键转换为预设字段类型的数据后根据第二关联主键对第二数据集进行分片,获取预设数量的第二数据分片;从预设缓存系统中读取第一数据分片,对第一数据分片和第二数据分片进行匹配,并将匹配后的第一数据分片和第二数据分片进行合并。本发明能够用于对超大数据集进行合并。