kettle的简单清洗

记一次kettle的简单清洗目
目的和Hive教程_(2019版)_一样的,


前言

表结构:

提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
目的:
1.里面有没有空值,有空值需要去除
2.将视频类别列需要将" & “变成”&"
3.将相关视频ID用&连接放在一个列中

在这里插入图片描述


提示:以下是本篇文章正文内容,下面案例可供参考

一、pandas是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、使用步骤

1.转换的步骤

在这里插入图片描述

2.文件输入

代码如下(示例):
在这里插入图片描述

3.过滤记录

在这里插入图片描述

4.将多列合并成一行(concat)

在这里插入图片描述

5.使用Java脚本

1.去除视频类别列中的空格
2.去除相关视频ID连接后留下的&
原始的数据在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


总结

1.最后搞定了,代码是万能的,增加写代码的能力,
2.在写Java代码时,在IDEA上没有报错,但是在kettle上可能会报错,可能是没有异常处理

### Kettle 中的数据清洗和排序 在 Kettle(也称为 Pentaho Data Integration, PDI)中,数据清洗和排序是常见的操作。Kettle 提供了多种步骤来实现这些功能,以下是对如何使用 Kettle 进行数据清洗和排序的详细说明。 #### 数据清洗 数据清洗涉及去除或修正数据中的错误、不完整或冗余信息。在 Kettle 中,可以使用以下步骤进行数据清洗: 1. **过滤记录**:通过设置条件筛选出符合特定规则的记录[^1]。 - 在“转换”中添加一个“过滤记录”步骤。 - 配置过滤条件以移除不需要的数据行。 2. **字段选择**:仅保留需要的字段,删除无用字段。 - 使用“选择值”步骤选择要保留的字段[^2]。 - 可以对字段重命名、更改类型或删除。 3. **查找替换**:用于替换字符串中的特定内容。 - 添加“查找替换”步骤,并指定要替换的文本和新值[^3]。 4. **正则表达式**:利用正则表达式处理复杂的字符串格式。 - 使用“JavaScript 脚本”或“修改 Java 字段”步骤编写正则表达式逻辑[^4]。 ```javascript // 示例:使用 JavaScript 正则表达式清理电话号码 var cleanedPhone = phone.replace(/[^0-9]/g, ""); ``` #### 数据排序 在 Kettle 中,可以通过“排序记录”步骤对数据进行排序。以下是具体步骤: 1. **添加排序步骤**:将“排序记录”步骤拖入转换中。 2. **配置排序字段**:选择需要排序的字段,并指定升序或降序[^5]。 3. **注意内存限制**:如果数据量较大,需确保系统有足够的内存来完成排序操作[^6]。 #### 示例教程 以下是一个简单的示例,展示如何在 Kettle 中完成数据清洗和排序: 1. **创建转换**: - 打开 Kettle 并创建一个新的转换。 2. **加载数据**: - 使用“表输入”或“CSV 文件输入”步骤加载原始数据。 3. **执行清洗**: - 添加“过滤记录”步骤移除无效数据。 - 使用“选择值”步骤保留必要的字段。 - 如果需要,添加“查找替换”步骤清理特定字段的内容。 4. **进行排序**: - 添加“排序记录”步骤,并配置排序规则。 5. **输出结果**: - 使用“表输出”或“文本文件输出”步骤保存清洗和排序后的数据。 #### 注意事项 - 在大规模数据集上运行时,确保硬件资源充足,尤其是内存[^7]。 - 测试每个步骤的输出以验证其正确性,避免累积错误[^8]。 ```python # 示例:Python 代码模拟排序逻辑 data = [{"name": "Alice", "age": 30}, {"name": "Bob", "age": 25}] sorted_data = sorted(data, key=lambda x: x["age"]) print(sorted_data) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值