kettle读txt文件并处理

本文详细介绍了如何使用Kettle 7.1版本进行TXT文件的读取和处理。内容包括:1) 使用Text file input工具读取单个或多文件,通过正则表达式选择文件;2) 利用Row Flatter功能减少记录条数,重新分配字段;3) Regex Evaluation进行字段信息分解;4) Replace in string实现字符串替换;5) Select Value用于改变元数据类型和格式。示例中展示了针对不同情况的操作步骤和结果展示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

kettle版本7.1,java版本必须是1.8

实例1:text文件只有一列

1.同时读取多个文件

使用Text file input工具

若是读取单个文档,直接输入:路径加文件名即可

若是读取多个文件,输入文件所在目录,然后在第二个框输入你文件名对应的正则表达式,之后再点击add,验证是否添加成功,去下方点击show filenames看看有没有你要添加的文件。

读取所有文件可以用“.*.*”  也可以用“.*\.*”。PS:你直接输入“*”是不行的,读取特定条件的文件可用“zhang.*\.txt”,此句就是把以zhang开头,后缀是txt文件输入

2.row flatter功能

作用:通过增加列减少记录条数

读取文件内容如图:

你在Text file input 中的filed字段下输入text,String他就会把每一行自动读取并把空白行消除。你再使用row flatter

他就会把text的所有按照你target field的字段重新分配到各个字段下。

3.Regex Evaluation使用

把一个字段里面的信息分解

指明需要分解的字段。

图中的Regular expression意思是:冒号前面是“Published”或者是“Expected”,冒号是另外一个String就行

输出如图,只要满足Regular expression,result返回Y,否则返回N

4.Replace in string

将文档中的一个字符串替换

这个意思就是从price字段里面搜索,把Our price全部替换为空。

5.select value

作用之一:替换元数据的类型和格式

由于你从TXT文档读的数据全是String所以使用这个把其类型改为Number,并改其格式

上面五个操作执行完后输出如图:

实例2:txt文件有多列数据,并且有的列占了很多的位置

数据如图:

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值