数据清洗学习笔记 2(用Kettle实现一个转换和一个作业的例子)

本文介绍如何使用Kettle进行数据转换和作业调度的实际操作。包括创建、重命名及保存转换和作业,详细步骤涉及添加注释、设置输入输出步骤及节点连接等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用kettle实现一个转换一个作业的例子实践

一.用kettle 实现一个转换
1.双击kettle 目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”→“新建”→“转换”命令,创建一个转换,名字默认是“转换1”如图3-1所示:
在这里插入图片描述
图3-1 创建转换
2.在图3-1中选择“文件”→“保存”命令,可以对转换实现重命名以及选择转换保存路径,重命名转换为example1,如图3-2和3-3 所示:
在这里插入图片描述
图3-2
在这里插入图片描述
图3-3 重命名转换为example1
3.在3-3中,主对象树中的节点主要用于现实当前转换的运行配置参数,数据库连接、步骤以及节点连接(跳)等信息。单击Kettle树形列表的核心对象,切换到转换的核心对象界面。如图3-4所示:
在这里插入图片描述
图3-4转换的核心对象
4.在Kettle主界面的工作区右击空白处,从弹出的快捷菜单中选择人“新建注释”命令,并添加主食的内容,如图3-5所示:
在这里插入图片描述
图3-5 添加注释
5.单击“输入”,将“表输入”拖到Kettle的工作区;再单击“输出”,将“文本文件输出”也拖到Kettle的工作区中;按住ctrl键的同时选中“表输入”和“文本文件输出”并右击,从弹出的快捷菜单中选择“建立节点连接”命令,在弹出的窗口选择“起始步骤”和“目标步骤”,单击“确认”’按钮,建立“表输入”和“文本文件输出”的连接,具体效果如图3-6所示:在这里插入图片描述
图3-6一个简单的转换例子
二.用Kettle实现一个作业
1.双击kettle 目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”→“新建”→“作业”命令,创建一个作业,名字默认是“作业1”,具体如图3-7所示:
在这里插入图片描述
图 3-7成功创建作业
2.在图3-7中选择“文件”→“保存”命令,可以对作业实现重命名以及选择作业保存路径,重命名作业为example_job,如图3-8 所示:
在这里插入图片描述
图3-8 作业重命名为example_job
3.主对象树中的节点主要用于显示当前作业的运行配置参数,数据库连接以及作业项目等信息。单击Kettle树形列表的核心对象,切换到作业的核心对象界面,转换的核心对象的如图3-9所示:
在这里插入图片描述
图3-9 转换的核心对象
4.在Kettle主界面的工作区右击空白处,从弹出的快捷菜单中选择“新建记录”命令,并添加注释的内容。如图3-10所示:
在这里插入图片描述
图3-10 添加注释
5.单击“通用”,将Start和“作业”依次拖到工作区,单击“邮件”,将“发送邮件”也拖到工作区;然后同时选中Start和“作业”右击,从弹出的快捷菜单中选择“新节点”命令,建立Start与“作业”之间的连接,再通过同样的方式将“作业”与“作业”,“作业”与“发送邮件”之间也建立连接,具体效果如图3-11所示:
在这里插入图片描述
图3-11 一个简单的作业例子

在《Kettle 9.3官方下载:高效数据抽取ETL工具》中,您将找到关于如何使用Kettle进行数据ETL的详细教程。要创建一个transformation来实现数据的抽取、清洗加载,您需要遵循以下步骤: 参考资源链接:[Kettle 9.3官方下载:高效数据抽取ETL工具](https://wenku.csdn.net/doc/6412b75bbe7fbd1778d4a031?spm=1055.2569.3001.10343) 首先,打开Kettle的图形化界面。在主界面上,您可以通过'文件'菜单选择'新建',然后选择transformation来创建一个新的转换文件。 接着,开始设计transformation流程。您可以通过拖拽不同的步骤(step)来设计数据流。例如: 1. 使用'表输入'(Table input)或'数据库查询'(Database query)来从数据库中抽取数据。 2. 插入'选择/重命名字段'(Select/rename fields)步骤来清洗数据,比如修改字段名称、选择特定的字段等。 3. 为了清洗数据,可能需要使用'空值填充'(Fill null values)、'过滤行'(Filter rows)或'排序行'(Sort rows)等步骤。 4. 使用'表输出'(Table output)或其他输出步骤将清洗后的数据加载到目标数据库或文件中。 在transformation中设置好每个步骤后,您需要配置每个步骤的具体参数。例如,在'表输入'步骤中配置SQL查询,在'表输出'步骤中配置目标表的数据库连接插入模式等。 在配置完所有步骤后,您可以通过点击工具栏中的'执行'按钮来运行transformation。通过查看'执行日志'面板,您可以监控转换的执行情况,并根据日志中的错误信息进行调试。 当您完成并确认transformation的正确性后,它就可以用于日常的数据ETL作业了。《Kettle 9.3官方下载:高效数据抽取ETL工具》提供了丰富的操作示例详细解释,可以作为您学习解决Kettle使用过程中遇到问题的参考。 参考资源链接:[Kettle 9.3官方下载:高效数据抽取ETL工具](https://wenku.csdn.net/doc/6412b75bbe7fbd1778d4a031?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值