Sklearn 机器学习特征提取字符串清理转数字

Thomas Kant

于 2025-07-07 09:00:00 发布

阅读量1.1k

点赞数 30

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：机器学习 sklearn 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Java_1710/article/details/149085255

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖

在这里插入图片描述

本博客的精华专栏：
【自动化测试】【测试经验】【人工智能】【Python】

在这里插入图片描述

Sklearn 机器学习：特征提取中的字符串清理与数字转换

在机器学习建模过程中，我们经常会遇到混合格式的数据，尤其是包含 字符串+数字 的文本特征（如“￥123元”、“高(3.2分)”、“约50%”等），若不进行合理清洗与转换，将无法被模型有效利用。

本文将带你深入了解如何使用 Sklearn + Pandas 等工具，从原始字符串中提取数值特征，助力机器学习模型性能提升！

📌 一、应用场景举例

在实际项目中，以下场景非常常见：

电商价格字段：如 "¥123.00"、"￥89元"。
商品评分字段：如 "评分4.5分"、"高(3.2分)"。
折扣/百分比信息：如 "约50%"、"优惠30%"。
地理/温度类信息：如 "22℃"、"东经120度"。

这些特征的共同点是：带有无用符号、单位、前后缀，需清洗后转为数值，才能用于模型。

🔧 二、字符串转数值的常见方法

我们以 Pandas 的 Series 为例，介绍几种典型的字符串清理技巧。

2.1 正则表达式提取数字

import pandas as pd

s = pd.Series(["¥123.45", "89元", "100", "￥56.7"])
s_clean = s.str.extract

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Thomas Kant 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。