特征转换

在原始数据中,有些特征需要转换,才能获取有用的信息。

1、定类等级的编码

对于定类数据,我们需要将其转换成数字特征,但却又不能使用有序数据,因为定类数据之间是没有层序关系的。这种情况下可以使用one-hot编码,pandas.get_dummies可以实现one-hot编码和虚拟编码。
如下,x_city特征值是不相关的,

2、定序等级的编码

如下,dislike、somelike、like,都是喜欢的程度,之间存在顺序,所以适合使用标签编码。
下面是使用sklean.preprocessing.LabelEncoder来实现:

该方法不能按照自己意愿的方式进行排序,如下该方法默认的编码是:0表示dislike,1表示like,2表示somelike。我想0表示dislike,1表示somelike,2表示like,那就要自定义标签编码器了。

3、连续特征分箱

有时,如果数值数据是连续的,那么将其转换为分类变量可能是有意义的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值