dolphinscheduler hadoop单机部署
时间: 2025-05-22 09:50:22 浏览: 35
### 单机环境下的 DolphinScheduler 和 Hadoop 部署教程
#### 1. 环境准备
为了在单机环境中部署 DolphinScheduler 和 Hadoop,需要先准备好基础环境。以下是所需的基础组件及其最低版本要求:
- **PostgreSQL 或 MySQL**: 数据库用于存储 DolphinScheduler 的元数据。推荐使用 PostgreSQL (8.2.15+) 或 MySQL (5.7 系列)[^2]。
- **JDK**: Java 开发工具包是必需的,建议安装 JDK 1.8+ 并配置 `JAVA_HOME` 和 `PATH` 环境变量[^3]。
- **ZooKeeper**: DolphinScheduler 使用 ZooKeeper 进行分布式协调,需安装 ZooKeeper (3.4.6+)[^3]。
- **Hadoop**: 如果计划将任务提交到 Hadoop 上执行,则需要安装 Hadoop (2.6+)[^2]。
---
#### 2. 安装并配置 Hadoop
Hadoop 是一个分布式计算框架,在单机模式下可以模拟小型集群的功能。以下是具体步骤:
##### 2.1 下载 Hadoop
从 Apache 官方网站下载适合的 Hadoop 版本,并将其解压到指定目录:
```bash
wget https://downloads.apache.org/hadoop/common/stable/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz -C /opt/
mv /opt/hadoop-3.3.1 /opt/hadoop
```
##### 2.2 配置 Hadoop
编辑 Hadoop 的核心配置文件 `/opt/hadoop/etc/hadoop/core-site.xml` 和 `/opt/hadoop/etc/hadoop/hdfs-site.xml`,设置如下参数:
```xml
<!-- core-site.xml -->
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
<!-- hdfs-site.xml -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
##### 2.3 初始化 HDFS 文件系统
运行以下命令初始化 HDFS 名称节点:
```bash
/opt/hadoop/bin/hdfs namenode -format
```
##### 2.4 启动 Hadoop 服务
依次启动 NameNode 和 DataNode:
```bash
start-dfs.sh
jps # 检查进程是否正常启动
```
通过浏览器访问 `http://localhost:9870` 来确认 Hadoop Web UI 是否可用。
---
#### 3. 安装并配置 DolphinScheduler
DolphinScheduler 是一款开源的工作流调度平台,支持多种类型的作业任务。
##### 3.1 准备数据库
根据所选数据库类型(MySQL/PostgreSQL),创建一个新的数据库实例供 DolphinScheduler 使用。例如,对于 PostgreSQL:
```sql
CREATE DATABASE dolphinscheduler;
GRANT ALL PRIVILEGES ON DATABASE dolphinscheduler TO your_user;
```
##### 3.2 下载 DolphinScheduler
下载最新的 DolphinScheduler 后端安装包并解压:
```bash
mkdir -p /opt/dolphinscheduler && cd /opt/dolphinscheduler
wget https://archive.apache.org/dist/incubator/dolphinscheduler/apache-dolphinscheduler-incubating-1.3.1-dolphinscheduler-backend-bin.tar.gz
tar -zxvf apache-dolphinscheduler-incubating-1.3.1-dolphinscheduler-backend-bin.tar.gz
mv apache-dolphinscheduler-incubating-1.3.1-dolphinscheduler-backend-bin dolphinscheduler-backend
```
##### 3.3 修改配置文件
进入解压后的目录,修改 `conf/application.properties` 中的相关配置项,连接已有的数据库和 Hadoop 资源:
```properties
spring.datasource.driver-class-name=org.postgresql.Driver
spring.datasource.url=jdbc:postgresql://localhost:5432/dolphinscheduler
spring.datasource.username=your_username
spring.datasource.password=your_password
dolphinscheduler.env.path=/path/to/hadoop/conf:/path/to/java/home/lib/tools.jar
```
##### 3.4 启动 DolphinScheduler
启动 DolphinScheduler 的独立服务器模式:
```bash
./bin/dolphinscheduler-daemon.sh start standalone-server
```
通过浏览器访问 `http://localhost:12345` 登录 DolphinScheduler 控制台,默认用户名密码为 `admin/dolphinscheduler123`[^4]。
---
#### 4. 将任务提交到 Hadoop 执行
要在 DolphinScheduler 中定义一个 Hadoop 类型的任务并将它提交给 Hadoop 集群执行,按照以下流程操作:
1. 在 DolphinScheduler 的控制台上新建工作流;
2. 添加一个 Shell 或 MapReduce 类型的任务;
3. 设置任务所需的资源配置路径以及脚本内容;
4. 发布并启动工作流。
确保 DolphinScheduler 已经正确加载了 Hadoop Client 库,并能够识别目标 Hadoop 集群的位置。
---
阅读全文
相关推荐















