学习笔记之kettle基础

本文详细介绍了Kettle这款开源ETL工具,包括其核心组件、概念模型、转换和作业的构建。重点讲解了各种输入、输出、转换控件的使用,如CSV、Excel、数据库的读写,以及数据处理操作如字段映射、值计算等。此外,还涵盖了日志查看、数据预览等功能,帮助读者深入理解并应用Kettle进行数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

kettle简介

ETL简介

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我要学习的ETL工具是Kettle!

kettle简介

  • Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
  • Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
  • Kettle允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
  • Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
  • Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。

kettle的结构

在这里插入图片描述

Spoon和Data Integration Server
Spoon是构建ETL Jobs和Transformations的工具。Spoon以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。
Data Integration Server是一个专用的ETL Server,它的主要功能有:
在这里插入图片描述
Enterprise Console(企业控制台)提供了一个小型的客户端,用于管理Pentaho Data
Integration企业版的部署,包括企业版本的证书管理、监控和控制远程Pentaho Data Integration服务器上的活动、分析已登记的作业和转换的动态绩效。

kettle的核心组件

在这里插入图片描述

kettle概念模型

核心概念

可视化编程

Kettle可以被归类为可视化编程语言(Visula Programming Languages,VPL),因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流。Kettle里的图就是转换和作业。
可视化编程一直是Kettle里的核心概念,它可以让你快速构建复杂的ETL作业和减低维护工作量。它通过隐藏很多技术细节,使IT领域更贴近于商务领域。

转换

转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。
转换包含一个或多个步骤(step),如读取文件、过滤数据行、数据清洗或将数据加载到数据库。
转换里的步骤通过跳(hop)来连接,跳定义一个单向通道,允许数据从一个步骤向另一个步骤流动。
在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
数据流有的时候也被称之为记录流。
在这里插入图片描述

Step步骤

步骤(控件)是转换里的基本的组成部分。
一个步骤有如下几个关键特性:

  1. 步骤需要有一个名字,这个名字在转换范围内唯一。
  2. 每个步骤都会读、写数据行(唯一例外是“生成记录”步骤,该步骤只写数据)。
  3. 步骤将数据写到与之相连的一个或多个输出跳,再传送到跳的另一端的步骤。
  4. 大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为分发和复制,分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤。

Hop跳

跳就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路。
跳实际上是两个步骤之间的被称之为行集的数据行缓存(行集的大小可以在转换的设置里定义)。
当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。
当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。
在这里插入图片描述
修改行集大小
在这里插入图片描述

数据行的数据类型

数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包含下面几种数据类型。
①String:字符类型数据
②Number:双精度浮点数。
③Integer:带符号长整型(64位)。
④BigNumber:任意精度数据。
⑤Date:带毫秒精度的日期时间值。
⑥Boolean:取值为true和false的布尔值。
⑦Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。

数据行的元数据

数据行的元数据就是每个步骤在输出数据行时对字段的描述,。
通常包含下面一些信息。
①名称:行里的字段名应用是唯一的。
②数据类型:字段的数据类型。
③格式:数据显示的方式,如Integer的#、0.00。
④长度:字符串的长度或者BigNumber类型的长度。
⑤精度:BigNumber数据类型的十进制精度。
⑥货币符号:¥
⑦小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.)或逗号(,)。
⑧分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号(,)或单引号(’)
在这里插入图片描述

并行

跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种并发低消耗内存的方式也是ETL工具的核心需求。

对于kettle的转换,不可能定义一个执行顺序,因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输入跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。 (要与数据流向区分开)

如果你想要一个任务沿着指定的顺序执行,那么就要使用后面所讲的“作业”!

kettle下载与安装

下载地址1
下载地址2:(pdi-ce-9.1.0.0-324.zip,这个百度云是kettle9的zip)
链接:https://pan.baidu.com/s/1Z9uhIaIcwwppaGEEX3bdsA
提取码:k3u4
下载好zip后,解压。

  1. 配置Java环境及Java环境变量。请自行百度。
  2. 配置kettle的环境变量。
    就是把Spoon.bat的所在目录:D:\HuaXiaBank\kettle_study\data-integration。这个路径加到
    环境变量–系统变量–Path中。(对于路径,请自行类比)

Windows10下运行就直接点击Spoon.bat。

文件的作用

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

执行结果窗口

在这里插入图片描述
日志:查看日志信息。
在这里插入图片描述
步骤度量:可以看到每一步的输入输出情况。
Metrics:可以查看每一步的时间消耗。耗时与硬件相关。
Preview data:调试程序的时候,可以根据它来查看每一步的数据是否达到期望。

kettle输入控件

kettle的输入控件是指把其他地方的数据拿出来,输入到kettle数据流中,作为后续操作的输入。

CSV文件输入

输入:就是用来抽取数据或生成数据。是ETL操作的E。
CSV文件是一种带有固定格式的文本文件。

  • 步骤名称,应该命名唯一且具有可读性
    在这里插入图片描述

文本文件输入

提取日志信息的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

可持续化发展

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值