变量相关性筛选是指在机器学习或统计建模中,通过分析变量之间的相关性,剔除一些冗余或无关的变量,以提高模型的性能和可解释性。常用的变量相关性筛选方法包括: 相关系数:通过计算变量之间的相关系数,来衡量它们之间的线性相关性。可使用 Pandas 库中的 corr() 函数计算相关系数,然后根据设定的阈值筛选相关性高的变量。 方差膨胀因子(VIF):用于检测多重共线性。VIF 表示一个变量的方差在多元回归模型中被放大的比例。若某个变量的 VIF 值过高,则说明它可能与其它变量高度相关,需要进行相关性筛选。可使用 statsmodels 库中的 variance_inflation_factor() 函数计算 VIF 值。上述代码怎么写
时间: 2024-03-06 14:46:20 浏览: 396
以下是一个使用相关系数和 VIF 进行变量相关性筛选的例子代码:
```python
import pandas as pd
import numpy as np
import statsmodels.api as sm
# 读取数据
data = pd.read_csv('data.csv')
# 计算相关系数矩阵
corr_matrix = data.corr()
# 打印相关系数矩阵
print(corr_matrix)
# 设定相关性阈值
corr_threshold = 0.6
# 筛选相关性较高的变量
related_cols = set()
for i in range(len(corr_matrix.columns)):
for j in range(i):
if abs(corr_matrix.iloc[i, j]) > corr_threshold:
colname_i = corr_matrix.columns[i]
colname_j = corr_matrix.columns[j]
related_cols.add(colname_i)
related_cols.add(colname_j)
# 打印相关性较高的变量
print(related_cols)
# 计算 VIF 值
X = data.drop(columns='target')
vif = pd.DataFrame()
vif["features"] = X.columns
vif["VIF Factor"] = [sm.OLS(X[col].values, X.drop(columns=col).values).fit().rsquared for col in X.columns]
# 打印 VIF 值
print(vif)
# 设定 VIF 阈值
vif_threshold = 5
# 筛选 VIF 值较小的变量
selected_cols = set(vif.loc[vif['VIF Factor'] < vif_threshold, 'features'])
# 打印筛选后的变量
print(selected_cols)
```
在这个例子中,我们首先读取了数据,并计算了相关系数矩阵。然后设定了相关性阈值,筛选出相关性较高的变量。接着,我们计算了 VIF 值,并设定了 VIF 阈值,筛选出 VIF 值较小的变量。最后,打印了筛选后的变量。
阅读全文
相关推荐


















