文章目录
CombineTextInputFormat切片
框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。
CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理
。
● CombineTextInputFormat切片机制
生成切片过程包括:虚拟存储过程和切片过程二部分。
(1)虚拟存储过程:
-
将输入目录下所有文件大小
,依次和
设置的setMaxInputSplitSize值比较
,如果不大于设置的最大值,逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍,那么以最大值切割一块;当剩余数据大小超过设置的最大值且不大于最大值2倍,此时将文件平均分成2个虚拟存储块(防止出现太小切片)。例如: setMaxInputSplitSize值为4M,输入文件大小为8.02M,则先逻辑上分成一个4M。 剩余的大小为4.02M,如果按照4M逻辑划分,就会出现0.02M的小的虚拟存储文件,所以将剩余的4.02M文件平均切分成(2.01M和2.01M)两个文件。
虚拟存储切片最大值设置 :
CombineTextInputFormat.setMaxInputSplitSize(job,4194304)
; // 4M
注意:虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。
(2)切片过程:
(a)判断虚拟存储的文件大小是否大于setMaxInputSplitSize值,大于等于则单独形成一个切片。
(b)如果不大于则跟下一个虚拟存储文件进行合并,共同形成一个切片。
(c)测试举例:
有4个小文件大小分别为1.7M、5.1M、3.4M以及6.8M。
这四个小文件,则虚拟存储之后形成6个文件块,大小分别为:1.7M,(2.55M、2.55M),3.4M以及(3.4M、3.4M)
最终会形成3个切片,大小分别为:(1.7+2.55)M,(2.55+3.4)M,(3.4+3.4)M
● CombineTextInputFormat案例
1. 需求
将输入的大量小文件合并成一个切片统一处理。
(1)输入 ---- 数据 准备4个小文件
(2)期望 ---- 期望一个切片处理4个文件
2. 编写代码运行
Mapper端
- 对合并后每个切片的数据进行初步处理
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class wcm extends Mapper <LongWritable,Text,Text, IntWritable> {
Text k = new Text();
IntWritable v = new IntWritable(1);
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String line = value.toString();
String[] words = line.split(" ");
for (String word:words){
k.set(word);
context.write(k,v);
}
}
}
Reducer端
- 对Mapper端传输的数据进行聚合统计
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
public class wcr extends Reducer<Text, IntWritable, Text, IntWritable> {
IntWritable v = new IntWritable();
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable value : values) {
sum += value.get();
}
v.set(sum);
context.write(key,v);
}
}
Driver端
- 默认使用TextInputFormat.class的切片机制,按照单个文件进行切片处理,由于每个数据集文件大小没超过128M,所以每个文件切一片,共四片,所以开启4个MapTask运行处理。
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class wcd {
public static void main(String[] args) {
Configuration conf = new Configuration();
Job job = null;
try {
// 1.获取job对象
job = Job.getInstance(conf);
// 2.类的关联
job.setMapperClass(wcm.class);
job.setReducerClass(wcr.class);
job.setJarByClass(wcd.class);
// 3.定义M、R阶段输出数据类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
// 4.指定输入输出路径
FileInputFormat.setInputPaths(job,new Path("G:\\Projects\\IdeaProject-C\\MapReduce\\src\\main\\java\\第三章_MR框架原理\\combinetextinputformat\\"));
FileOutputFormat.setOutputPath(job,new Path("G:\\Projects\\IdeaProject-C\\MapReduce\\src\\main\\java\\第三章_MR框架原理\\output"));
// 5.提交job
job.waitForCompletion(true);
} catch (Exception e){
e.printStackTrace();
}
}
}
- 驱动类中添加代码如下:
// 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
当设置CombineTextInputFormat.class,采用CombineTextInputFormat的切片机制,并且设置虚拟存储切片最大值为4M
,将每个文件大小与4M进行比较,显然变成了3个切片
,对小文件进行了合并~
- 驱动中添加代码如下:
// 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置20m
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);
当虚拟存储切片最大值设置20M
,显然变成了1个切片
● 补充说明
假如设置的虚拟存储切片最大值为2M,会出现一个问题,就是在文件大小与这个最大的值进行比较的时候,会出现大于两倍的情况(当然按道理实际中出现的概率很低,纯属本人在这里脑子里冒了个泡),出于好奇我重新设置了它的最大值,如下代码所示:
CombineTextInputFormat.setMaxInputSplitSize(job, 2097152);
首先来看一下结果:
结果显示的是6个切片,有点意思,然后我进行了一波分析,如果有错,可以在评论区指出~
个人理解为当大于2倍最大值的时候,会先提取一块最大值大小的数据,再将剩余的继续判断,如此往复。最终切片合并的时候也是与最大值进行比较,如果大于最大值,独自分为一个切片;否则与下一个合并直到大于最大值作为一个切片为止。
图片更正:
感谢博主:东大梅西