一、逻辑回归背景知识
逻辑回归(Logistic Regression)是最常用的分类算法之一,因其简单直观可解释而广受欢迎。它来源于统计学中的广义线性模型(GLM),也是机器学习领域的基本算法。
因本文重在分享对模型变量重要性的可视化,故在这里不对模型原理做过多说明。感兴趣的读者可以参考以下几篇文章。
简单地说,逻辑回归模型的变量系数,反映变量变动对比值比y/1-y(odd)的影响,即对样本X作为正例的相对可能性的影响。
这里我们先建立模型,输出系数,供后面可视化使用。
#=============== 逻辑回归 =================
#加载包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#数据读入
filename='loandata.xls'
data=pd.read_excel(filename)
data.head()
#数据准备
X_data = data.drop(['违约'],axis=1)
print(X_data.head())
y_data = np.ravel(data[['违约']])
#划分数据集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X_data,y_data,random_state=1)
X_train.shape
X_test.shape
#建立模型
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression