利用 Oozie 进行 Hadoop 工作流调度与管理
1. 引言
在 Hadoop 环境中,容量调度器、公平调度器等插件式调度器主要处理一段时间内分配给单个作业的资源。然而,作业之间的关系和依赖该如何管理呢?这就需要像 Apache Oozie 这样的工作流管理器登场了。Oozie 是一个用于 Hadoop 的工作流调度器,它集成了许多 Hadoop 工具,如 Pig、Hive、MapReduce 和 Streaming。Oozie 工作流被定义为有向无环图(DAG),并以 XML 格式存储。
2. 安装 Oozie
在单个 CentOS 6 Linux 服务器 hc1nn 上安装 Oozie,具体步骤如下:
1. 安装 Oozie 客户端和服务器 :以 root 用户身份使用 Yum 包管理器进行安装。
[root@hc1nn conf]# yum install oozie
[root@hc1nn conf]# yum install oozie-client
- 配置 Oozie 使用 YARN :编辑
/etc/oozie/conf
目录下的oozie-env.sh
文件。
[root@hc1nn conf]# cd /etc/oozie/conf
[root@hc1nn conf]#