CentOs部署datahub部署
时间: 2025-05-17 13:50:17 浏览: 33
### 部署 DataHub 的环境需求
为了成功在 CentOS 上部署 DataHub 数据平台,需满足其官方规定的最低硬件资源要求:至少 **2 个 CPU 核心**、**8GB 内存**、**2GB 交换区** 和 **10GB 可用磁盘空间**[^1]。
---
### 安装与配置流程
#### 准备工作
确保目标服务器已安装必要的依赖项。以下是基于 CentOS 7 的具体操作:
1. 更新系统并安装基础工具包:
```bash
sudo yum update -y && sudo yum install -y wget git vim java-1.8.0-openjdk-devel
```
2. 下载 Java JDK 并设置 JAVA_HOME 环境变量。如果通过 `gradlew` 构建项目,则会自动下载指定版本的 OpenJDK (如 jdk8u382-b05)[^3]。可以手动验证是否完成正确安装:
```bash
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
echo $JAVA_HOME
```
#### 创建 Recipe 文件
创建用于数据摄取的 YAML 配置文件 (`mysql_test.yaml`) 来定义 MySQL 数据源以及 DataHub REST API 接收端的信息[^2]:
```yaml
source:
type: mysql
config:
username: root
password: root
database: testdb
host_port: localhost:3306
sink:
type: datahub-rest
config:
server: http://localhost:8080
```
保存该文件到当前目录或者任意路径下以便后续调用。
#### 启动服务及导入 Schema
执行以下命令加载上述 recipe 文件并将元数据注入至本地运行中的 DataHub 实例中:
```bash
python3 -m datahub ingest -c mysql_test.yaml
```
此过程将从所连接数据库提取 schema 结构并通过 HTTP POST 请求发送给监听于地址 `http://localhost:8080` 的接收器组件处理。
#### 查看存储的数据
要浏览已经提交上去的内容可以通过浏览器访问前端界面,默认情况下位于 `/metadata-browser/#/datasets` 路径之下;也可以利用 CLI 工具查询特定实体详情:
```bash
datahub get dataset --urn "urn:li:dataset:(urn:li:dataPlatform:mysql,testdb,PROD)"
```
> 注明实际 URN 值可能依据具体情况有所差异,请替换为对应名称空间内的合法标识符。
---
###
阅读全文
相关推荐














