一种确保MapReduce的数据输入分片包含完整记录的方法与系统
基本信息
申请号 | CN201511011527.5 | 申请日 | - |
公开(公告)号 | CN105608212B | 公开(公告)日 | 2020-02-07 |
申请公布号 | CN105608212B | 申请公布日 | 2020-02-07 |
分类号 | G06F16/182;G06F16/172 | 分类 | 计算;推算;计数; |
发明人 | 武志学;赵阳;田盛 | 申请(专利权)人 | 成都国腾实业集团有限公司 |
代理机构 | 成都金英专利代理事务所(普通合伙) | 代理人 | 成都国腾实业集团有限公司 |
地址 | 610000 四川省成都市成都高新区西部园区西芯大道3号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种确保MapReduce的数据输入分片包含完整记录的方法与系统,其方法包括以下步骤:S1.在HDFS系统中创建存储文件;S2.向HDFS系统的客户端进行数据输入,并对输入的每条数据进行描述;S3.HDFS系统的客户端依次接收数据中的每条数据记录,并进行数据包构建,将在进行第n个数据包构建时,每进行一条数据记录的接收,均判断当前接收的数据记录能否完整保存于当前数据包中;S4.HDFS系统的服务器端将接收到的数据包构建成数据块,并将数据块写入存储文件中。提供一种确保MapReduce的数据输入分片包含完整记录的方法与系统,避免了在进行数据处理的时候,需要跨数据片读取数据的情况,保证了数据处理本地化,从而大大提高了系统处理的效率。 |
