Hadoop streaming mapreduce多文件输入使用方法

debug_myself

于 2017-03-18 19:36:03 发布

阅读量8.3k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Hadoop 文章标签： hadoop mapreduce

本文链接：https://blog.csdn.net/carlislelee/article/details/63265854

Hadoop 专栏收录该内容

3 篇文章

订阅专栏

本文介绍如何在Hadoop MapReduce程序中通过环境变量map_input_file来识别记录来自哪个输入文件。此方法适用于同时处理多个文件的情况，并提供了一个使用Python编写的示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写Mapreduce程序时，常常会有同时处理多个输入文件的的需求，那么如何在map程序中方便的知道这一条record到底来自哪个文件呢？如果数据源是可控的，我们尚可以通过字段的个数等来判断，然而这不是一个优雅的方法，其实hadoop已经给了留了解决方法：在map端获取环境变量map_input_file（0.21.x的版本分支中是mapreduce_map_input_file）即为本次的输入文件。

以笔者使用的hadoop streaming + python环境为例：

输入文件有两个：

-input "/home/hadoop/file1"

-input "/home/hadoop/file2"

在mapper文件中：

if 'file1' in os.getenv('map_input_file'):

//文件1处理逻辑

if 'file2' in os.getenv('map_input_file'):

//文件2处理逻辑