Hadoop分布式文件系统针对日志型小文件的存储和处理方法
基本信息
申请号 | CN201510137574.8 | 申请日 | - |
公开(公告)号 | CN104731921B | 公开(公告)日 | 2018-03-30 |
申请公布号 | CN104731921B | 申请公布日 | 2018-03-30 |
分类号 | G06F17/30 | 分类 | 计算;推算;计数; |
发明人 | 徐锐;刘斌;台宪青 | 申请(专利权)人 | 北京科电高技术有限公司 |
代理机构 | 无锡市大为专利商标事务所(普通合伙) | 代理人 | 曹祖良;韩凤 |
地址 | 214135 江苏省无锡市新区菱湖大道200号中国传感网国际创新园C座 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及计算机HDFS分布式文件系统领域,公开了一种HDFS针对日志型小文件的存储和处理方法,将文件按物理位置就近合并,同时使用Copy‑On‑Write机制优化小文件的读写。具体为,将日志型小文件按照物理路径就近合并,客户端读写日志型小文件时先从名字节点NameNode读取合并文件和合并文件索引的元数据Metadata信息,然后根据合并文件索引从合并文件中读写各个日志型小文件数据。本发明针对日志型小文件,提出了一种新的处理方法,该方法将小文件metadata的内存负担从NameNode转移到了客户端,有效的解决了HDFS处理大量小文件的低效问题。客户端缓存小文件metadata也使得小文件的访问得到加速,多次连续访问物理位置临近的小文件时无需向NameNode请求metadata。 |
