在原始数据中,有些特征需要转换,才能获取有用的信息。
1、定类等级的编码
对于定类数据,我们需要将其转换成数字特征,但却又不能使用有序数据,因为定类数据之间是没有层序关系的。这种情况下可以使用one-hot编码,pandas.get_dummies可以实现one-hot编码和虚拟编码。
如下,x_city特征值是不相关的,

2、定序等级的编码
如下,dislike、somelike、like,都是喜欢的程度,之间存在顺序,所以适合使用标签编码。
下面是使用sklean.preprocessing.LabelEncoder来实现:

该方法不能按照自己意愿的方式进行排序,如下该方法默认的编码是:0表示dislike,1表示like,2表示somelike。我想0表示dislike,1表示somelike,2表示like,那就要自定义标签编码器了。

3、连续特征分箱
有时,如果数值数据是连续的,那么将其转换为分类变量可能是有意义的。
