Hadoop大数据——mapreduce的Distributed cache

原创于 2019-08-16 22:06:00 发布 · 445 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop #mapreduce

大数据专栏收录该内容

578 篇文章

订阅专栏

本文深入探讨了MapReduce框架下的MapSideJoin技术，详细讲解了其工作原理和应用场景。通过将文件分发到每个运行任务的节点，MapSideJoin允许在mapper或reducer中直接使用本地文件API访问这些文件，从而实现高效的数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

应用场景：map side join
工作原理：
通过mapreduce框架将一个文件（本地/HDFS）分发到每一个运行时的task(map task /reduce task)节点上（放到task进程所在的工作目录）
获取的方式：在我们自己的mapper或者reducer的代码内，直接使用本地文件JAVA ----API 来访问这个文件
示例程序：

首先在 job对象中进行指定：

job.addCacheFile(new URI("hdfs://hadoop-server01:9000/cachefile/b.txt"));
//分发一个文件到task进程的工作目录
job.addCacheFile(new URI("hdfs://hadoop-server01:9000/cachefile/b.txt"));
//分发一个归档文件到task进程的工作目录
//job.addArchiveToClassPath(archive);
//分发jar包到task节点的classpath下
//job.addFileToClassPath(jarfile);

然后在mapper或者reducer中直接使用：

in = new FileReader("b.txt");
reader =new BufferedReader(in);
String line = reader.readLine()