一种确保MapReduce的数据输入分片包含完整记录的方法与系统

基本信息

申请号 CN201511011527.5 申请日 -
公开(公告)号 CN105608212B 公开(公告)日 2020-02-07
申请公布号 CN105608212B 申请公布日 2020-02-07
分类号 G06F16/182;G06F16/172 分类 计算;推算;计数;
发明人 武志学;赵阳;田盛 申请(专利权)人 成都国腾实业集团有限公司
代理机构 成都金英专利代理事务所(普通合伙) 代理人 成都国腾实业集团有限公司
地址 610000 四川省成都市成都高新区西部园区西芯大道3号
法律状态 -

摘要

摘要 本发明公开了一种确保MapReduce的数据输入分片包含完整记录的方法与系统,其方法包括以下步骤:S1.在HDFS系统中创建存储文件;S2.向HDFS系统的客户端进行数据输入,并对输入的每条数据进行描述;S3.HDFS系统的客户端依次接收数据中的每条数据记录,并进行数据包构建,将在进行第n个数据包构建时,每进行一条数据记录的接收,均判断当前接收的数据记录能否完整保存于当前数据包中;S4.HDFS系统的服务器端将接收到的数据包构建成数据块,并将数据块写入存储文件中。提供一种确保MapReduce的数据输入分片包含完整记录的方法与系统,避免了在进行数据处理的时候,需要跨数据片读取数据的情况,保证了数据处理本地化,从而大大提高了系统处理的效率。