半连接（Semi-join）-CSDN博客

本文介绍了如何在大数据场景下，通过半连接技术来优化两个大型数据集的连接操作。通过三个MapReduce作业，有效减少数据量，避免shuffle和sort阶段，提高处理效率。具体步骤包括从日志中提取用户名生成唯一集合，使用复制连接过滤用户数据，最后合并过滤后的用户和日志数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

假设一个场景，需要连接两个很大的数据集，例如，用户日志和 OLTP 的用户数据。任何一个数据集都不是足够小到可以缓存在 map 作业的内存中。可以思考以下问题:如果在数据集的连接操作中，一个数据集中有的记录由于因为无法连接到另一个数据集的记录，将会被移除。这样还需要将整个数据集放到内存中吗?

在这个例子中，在用户日志中的用户仅仅是 OLTP 用户数据中的用户中的很小的一部分。那么就可以从 OLTP 用户数据中只取出存在于用户日志中的那部分用户的用户数据。然后就可以得到足够小到可以放在内存中的数据集。这种的解决方案就叫做半连接。

应用场景:
需要连接两个都很大的数据集，同时避免经过 shuffle 和 sort 阶段。解决方案:

在这个技术中，将会用到三个 MapReduce 作业来连接两个数据集，以此来减少 reduce 端连接的消耗。这个技术在这种场景下非常有用:连接两个很大的数据集，但是可以通过过滤与另一个数据集不匹配的记录来减少数据的大小，使得可以放入 task 的内存中。

下图说明了在半连接中将要执行的三个 MapReduce 作业(Job)。

[例]使用半连接。

准备数据集：

有两个数据集 logs.txt 和 users.txt。其中 users.txt 中为用户数据，包括用户名、年龄和所在地区;logs.txt为基于用户的一些活动(可从应用程序或 web 服务器日志中抽取出来)，包括用户名、活动、源 IP 地址。

文件 users.txt:

文件 logs.txt:

JOB 1:

第一个 MapReduce job 的功能是从日志文件中提取出用户名，用这些用户名生成一个用户名唯一的集合(Set)。这通过在 map 函数执行用户名的投影操作来实现，并反过来使用 reducer 来产生这些用户名。为了减少在 map 阶段和 reduce 阶段之间传输的数据量，采用如下方法:在 map 任务中采用哈希集 HashSet来缓存所有的用户名，并在 cleanup 方法中输出该 HashSet 的值。下图说明了这个 job 的流程:

作业1的代码：

package com.edu360.mapreduce;

import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
i