Pandas数据离散化

最新推荐文章于 2024-10-11 11:50:59 发布

代序春秋

最新推荐文章于 2024-10-11 11:50:59 发布

阅读量1k

点赞数 1

分类专栏：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/geek64581/article/details/107055448

版权

本文介绍了数据离散化的目的和方法，特别是针对股票涨跌幅数据的处理。通过Pandas的qcut和cut函数进行分组，再使用get_dummies进行one-hot编码，将连续属性转化为哑变量矩阵，简化数据结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、为什么要离散化

连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。

二、什么是数据的离散化

连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。

离散化有很多种方法，这使用一种最简单的方式去操作

原始人的身高数据：165，174，160，180，159，163，192，184
假设按照身高分几个区间段：150~165, 165_180,180195

这样我们将数据分到了三个区间段，我可以对应的标记为矮、中、高三个类别，最终要处理成一个"哑变量"矩阵

三、股票的涨跌幅离散化

我们对股票每日的"p_change"进行离散化
在这里插入图片描述

3.1 读取股票的数据

先读取股票的数据，筛选出p_change数据

data = pd.read_csv

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。