阿里云Dataworks

最新推荐文章于 2025-06-08 14:34:05 发布

原创最新推荐文章于 2025-06-08 14:34:05 发布 · 4.6k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #阿里云

阿里云专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了如何在阿里云Dataworks中进行数据集成，包括创建MaxCompute表、上传本地数据，以及创建业务流程和数据同步任务。步骤涵盖从新建表、设置调度依赖，到配置数据源、同步节点，以及测试和提交任务的全过程。此外，还提到了使用临时查询进行SQL快速查询的功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Dataworks

介绍
Dataworks是阿里云数据工厂是阿里云重要的产品，主要提供：数据集成、数据开发、数据地图、数据质量，数据服务等全方位的产品服务，一站式开发管理的界面，支持多种计算和存储引擎服务
一、建表并上传数据

一、创建表
首先我们要在工作空间中配置MaxCompute
1、进入数据开发页面
登录控制台
在左侧导航栏，单击工作空间列表
选择工作空间所在地域，单击相应工作空间后进行数据开发
2、在数据开发界面，点击新建MaxCompute，表
3、在新建表对话中，输入表名字，提交，
表明命名规范：（表名不能超过64个字符，且必须以字母开头，不能包含中文或特殊字符。）
4、在表的编辑页面，单击DDL，模式，输入建表语句，单击生成表结构，点击确认
5、根据dataworks购买的区分为简易版本（便宜），标准版本（贵）
简易版本直接提交生产环境
标准版分别提交到开发环境和生产环境
6、查询吧表在左侧导航栏，双击表名，查看信息

二、本地数据上传至表
上传本地的文本文件至工作空间的表中。
通过数据集成模块，从多个不同的数据源导入业务数据至工作空间。
（说明本地文本文件上传的限制如下：
文件类型：仅支持.txt.csv .log 类型的文件。
文件大小：不能超过30 MB。
操作对象：支持分区表导入和非分区表导入，但不支持分区值为中文、and（&）、星号（*）等特殊字符。）
1、点击导入按钮，
2、搜索需要导入数据的表
（说明如果您创建表后无法在此处搜索到该表，您可以先在数据地图进行手工同步表操作后，再在此处尝试搜索该表，手工同步详情可参考文档：
手工同步表。）
3,、选择数据导入方式为上传本地数据，单击选择文件后的浏览，。选择本地数据文件，配置导入信息
参数描述选择数据导入方式默认上传本地文件。选择文件单击浏览…，选择本地需要上传的文件。选择分隔符包括逗号、Tab、分号、空格、|、#和&等分隔符，此处选择逗号。原始字符集包括GBK、UTF-8、CP936和ISO-8859，此处选择GBK。导入起始行选择导入的起始行，此处选择1。首行为标题根据自身需求，设置首行是否为标题。本示例无需选中首行为标题。数据预览您可以在此处进行数据预览。说明如果数据量过大，仅展示前100行和前50列的数据。
4、点击下一步
5、选择目标表字段与原字段匹配方式
6、点击导入数据

二、创建业务流程

一、创建业务流程
登录DataWorks控制台。
在左侧导航栏，单击工作空间列表。
选择工作空间所在地域后，单击相应工作空间后的进入数据开发。
在数据开发页面，鼠标悬停至新建图标，单击业务流程。
在新建业务流程对话框中，输入业务名称和描述。
（注意业务名称必须是大小写字母、中文、数字、下划线（_）以及小数点（.），且不能超过128个字符。）
6.单击新建。

二、创建节点并配置依赖关系
在业务流程中创建一个虚拟节点（start）和ODPS SQL节点（insert_data），并配置依赖关系为insert_data依赖于start。
（注意
虚拟节点属于控制类型节点，在业务流程运行过程中，不会对数据产生任何影响，仅用于实现对下游节点的运维控制。
虚拟节点在被其它节点依赖的情况下，如果被运维人员手动设置为运行失败，则下游未运行的节点将因此无法被触发运行。在运维过程中，可以防止上游的错误数据进一步扩展。
业务流程中，虚拟节点的上游节点通常会被设置为工作空间根节点。工作空间根节点的格式为工作空间名称_root。
DataWorks会为节点自动添加一个节点名的输出，结构为工作空间名称.节点名称。如果一个工作空间下有两个同名的节点，请修改其中一个节点的节点输出。）
双击业务流程名称进入开发面板，鼠标单击虚拟节点并拖拽至右侧的开发面板。
在新建节点对话框中，输入节点名称为start，单击提交。
（注意节点名称必须是大小写字母、中文、数字、下划线（_）以及小数点（.），且不能超过128个字符。）
以同样的操作新建ODPS_SQL节点，命名为insert_data。
通过拖拽连线，设置start节点为insert_data节点的上游节点。

三、配置虚拟节点的上游依赖
在业务流程中，虚拟节点通常作为整个业务流程的控制器，是业务流程中所有节点的上游节点。
通常使用工作空间根节点作为虚拟节点依赖的上游节点：
双击虚拟节点名称，进入节点的编辑页面。
单击节点编辑页面右侧的调度配置。
在调度依赖区域，单击使用工作空间根节点，设置虚拟节点的上游节点为工作空间根节点。
单击工具栏中的保存图标。

四、编辑和运行ODPS SQL节点
1.打开ODPS SQL节点的编辑页面，输入下述代码。
2.右键单击代码中的字段，选中删除输入。
（说明由于DataWorks的调度依赖主要保障的是调度节点定时更新的表数据，通过节点调度依赖保障下游取数没有问题，所以不是DataWorks平台上调度更新的表，平台无法监控。当存在非周期性调度生产数据的表，有节点select这类表数据时，您需要手动删除通过select自动生成的依赖的上游节点配置。）
3.点击保存后，点击运行，运行结束后，即可在页面下方查看运行日志和结果。
运行要钱！！

五、提交业务流程
1.运行调试后，返回业务流程页面。
2.点击上传图标
3.在提交对话框中，选择需要提交的节点，输入备注，并选中忽略输入输出不一致的告警。
4.单击提交。
业务流程提交后，即可在业务流程下的节点列表查看节点提交状态。如果节点名称左侧存在图标，表示该节点已提交；如果不存在图标，表示该节点未提交。

三、创建同步任务
首先通过RDS创建MySQL实例，获取RDS实例ID，并在RDS控制台添加白名单。如果是通过自定义资源组调度RDS的数据同步任务，必须把自定义资源组的机器IP也加入RDS的白名单中。
在DataWorks中，通常通过数据集成功能，定期导入系统中产生的业务数据至工作区。SQL任务进行计算后，再定期导出计算结果至您指定的数据源中，以便进一步展示或运行使用。

目前数据集成功能支持从RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、DM、HDFS和MongoDB等数据源中，导入数据至工作空间或从工作空间导出数据。

一、新增数据源，
仅项目管理员角色可以新建数据源，其它角色的成员仅支持查看数据源。
进入数据源管理页面。
登录DataWorks控制台。
在左侧导航栏，单击工作空间列表。
选择工作空间所在地域后，单击相应工作空间后的进入数据集成。
在左侧导航栏，单击数据源，进入工作空间管理 > 数据源管理页面。
在数据源管理页面，单击右上角的新增数据源。
在新增数据源对话框中，选择数据源类型为MySQL。
在新增MySQL数据源对话框，配置各项参数。
参数描述数据源类型当前选择的数据源类型为阿里云实例模式。数据源名称数据源名称必须以字母、数字、下划线（）组合，且不能以数字和下划线（）开头。数据源描述对数据源进行简单描述，不得超过80个字符。适用环境可以选择开发或生产环境。说明仅标准模式工作空间会显示该配置。地区选择相应的地域。RDS实例ID您可以进入RDS控制台，查看RDS实例ID。RDS实例主账号ID实例购买者登录DataWorks控制台，鼠标悬停至右上角的用户头像，单击安全设置，查看账号ID。数据库名该数据源对应的数据库名称。用户名数据库对应的用户名。密码数据库对应的密码。
5、在数据集成页签下，单击相应资源组后的测试连通性。
数据同步时，一个任务只能使用一种资源组。您需要测试每种资源组的连通性，以保证同步任务使用的数据集成资源组能够与数据源连通，否则将无法正常执行数据同步任务。如果您需要同时测试多种资源组，请选中相应资源组后，单击批量测试连通性。
6、测试连通性通过后，单击完成。

二、新建并配置同步节点
切换至数据开发面板，新建一个离线同步节点write_result。
设置write_result节点的上游节点为insert_data节点。
选择数据源（ODPS > odps_first）、表（result_table）为数据来源。
选择您新建的MySQL数据源中的表（odps_result）为数据去向。
选择字段的映射关系，左侧的源头表字段和右侧的目标表字段为一一对应关系。
在通道控制区域，配置作业速率上限和脏数据检查规则。
参数描述任务期望最大并发数数据同步任务内，可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数，指定任务所使用的并行度。同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。
预览保存。
完成上述配置后，上下滚动鼠标即可查看任务配置。确认无误后，单击工具栏中的保存图标。

三、提交数据同步任务
同步任务保存后，返回业务流程。单击工具栏中的上传，提交同步任务至调度系统中。调度系统会根据配置的属性，从第二天开始自动定时执行。

四、配置调度和依赖属性

一、配置调度属性
进入数据开发页面。
登录DataWorks控制台。
在左侧导航栏，单击工作空间列表。
选择工作空间所在地域后，单击相应工作空间后的进入数据开发。
在相应的业务流程下，双击打开离线同步节点write_result的编辑页面。
单击编辑页面右侧的调度配置。
说明手动业务流程中创建的节点需要手动触发，无法通过调度执行。
在时间属性区域，配置节点的调度属性。
参数描述生成实例方式包括T+1次日生成和发布后即时生成。时间属性根据自身需求，选择正常调度或空跑调度。重跑属性包括运行成功或失败后皆可重跑、运行成功后不可重跑，运行失败后可以重跑和运行成功或失败后皆不可重跑。出错自动重跑如果重跑属性设置为运行成功或失败后皆可重跑和运行成功后不可重跑，运行失败后可以重跑时，会显示该属性，可以配置任务出错自动重跑。如果设置为运行成功或失败后皆不可重跑，则不会显示该属性，即任务出错不会自动重跑。生效日期节点的有效日期，请根据自身需求进行设置。暂停调度勾选后即为暂停状态。调度周期节点的运行周期（月、周、天、小时和分钟），此处设置为周调度。定时调度默认选中。指定时间/具体时间指定节点运行的具体时间。例如，配置节点在每周二的凌晨2点开始运行。cron表达式此处根据您配置定时时间默认显示，不可以更改。依赖上一周期根据自身需求，选择是否依赖上一周期。

二、配置依赖属性
配置离线同步节点的调度属性后，继续配置离线同步节点的依赖属性。
依赖属性中可以配置节点的上游依赖，表示即使当前节点的实例已经到定时时间，也必须等待上游节点的实例运行完毕，才会触发运行。
例如，当前节点的实例将在上游insert_data节点的实例运行完毕后，才会触发执行。
在调度系统中，每一个工作空间中默认会创建一个工作空间名称_root节点作为根节点。如果本节点没有上游节点，可以直接依赖根节点。

三、提交节点
配置离线同步节点的调度属性后，继续配置离线同步节点的依赖属性。
依赖属性中可以配置节点的上游依赖，表示即使当前节点的实例已经到定时时间，也必须等待上游节点的实例运行完毕，才会触发运行。
例如，当前节点的实例将在上游insert_data节点的实例运行完毕后，才会触发执行。
在调度系统中，每一个工作空间中默认会创建一个工作空间名称_root节点作为根节点。如果本节点没有上游节点，可以直接依赖根节点。

五、运行及排错

1测试运行
2补数据运行
3周期自动运行

六、使用临时查询快速查询SQL

进入临时查询
登录DataWorks控制台。
在左侧导航栏，单击工作空间列表。
选择工作空间所在地域后，单击相应工作空间后的进入数据开发。
在左侧导航栏，单击临时查询。
在临时查询面板，右键单击临时查询，选择新建节点 > ODPS SQL。
在新建节点对话框中，输入节点名称，并选择目标文件夹。
说明节点名称的长度不能超过128个字符。
单击提交。
运行SQL
在新建的临时查询节点中运行MaxCompute支持的SQL语句

学习总结，仅供参考