特征选择

本文探讨了特征选择中的两种方法:皮尔逊相关系数和互信息。通过皮尔逊相关系数分析特征间的线性关系,识别高度相关特征以减少冗余。互信息则更关注特征间的信息共享,适用于非线性关系,能捕捉更复杂的依赖。文中还提及了其他特征选择策略,如决策树和正则化方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

特征选择


1.相关性

通过使用相关性,我们很容易看到特征之间的线性关系。这种关系可以用一条直线拟合。

下面通过皮尔逊相关系数(Pearson correlation coefficient)来解释特征的相关性:

下面每幅图上方的相关系数Cor(X1, X2)是计算出来的皮尔逊r值,从图中可以看出不同程度的相关性。
这里写图片描述

scipy.stats.pearsonr(),给定两个数据序列 ,会返回相关系数值和p值所组成的元组。皮尔逊相关系数(皮尔逊r值)测量两个序列的线性关系,取值在-1到1之间,-1代表负相关、1代表正相关、0代表不相关。r值:

rpb=(x
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值