Hadoop数据组织与压缩优化指南
1. 处理Hadoop中的小文件问题
在Hadoop中直接使用大量小文件会导致NameNode内存占用过高,MapReduce作业运行缓慢。以下是几种处理小文件问题的方法:
1. 生成多个zip文件 :尽量使zip文件大小接近HDFS块大小。
2. 使用CombineFileInputFormat :可以将多个输入分片(跨多个文件)提供给单个map任务,减少所需的map任务数量。
3. 创建tarball文件 :将所有文件打包成一个tarball文件,并创建一个单独的文本文件记录其在HDFS中的位置。但这种方法会绕过MapReduce的本地性,可能导致不必要的网络I/O。
4. 使用Hadoop Archive文件(HARs) :这是一种专门为解决小文件问题而创建的Hadoop文件,是位于HDFS之上的虚拟文件系统。不过,HAR文件无法针对MapReduce中的本地磁盘访问进行优化,也不能进行压缩。
5. 使用HDFS Federation(Hadoop 2支持) :将HDFS划分为多个不同的命名空间,每个命名空间由单独的NameNode独立管理,从而将内存中保存块信息的总体影响分散到多个NameNode上,支持更多的小文件。
6. 使用MapR分布式文件系统 :MapR提供的Hadoop发行版有自己的分布式文件系统,支持大量小文件。但迁移到MapR会对系统造成较大改变,不太可能为解决HDFS的小文件