更多推导参见:https://blog.csdn.net/sinat_37965706/article/details/69204397
一.概述
1.概念:
"线性回归"(Linear Regression)是最简单的回归,目标是找到"自变量"(Independent Variable)与"因变量"(Dependent Variable)/
"响应变量"(Response Variable)之间的线性关系.相应的模型为"线性回归模型"(Linear Regression Model),该模型需要假设因变量服
从正态分布(高斯分布)
2.优缺点
(1)优点:
①思想简单,实现容易,建模迅速
②运算速度快
③是许多强大的非线性模型的基础
④容易理解,可解释性好,利于决策分析
(2)缺点:
①难以很好得拟合关系复杂的数据
②存在多重共线性的问题
二.线性回归
1.简单线性回归
(1)模型:
简单线性回归(Simple Linear Regression)是指找到1个自变量与1个因变量间的线性关系.简单线性回归模型(Simple Linear Regression Model)为 y = β 0 + β 1 x + ε ( 1 ) y=β_0+β_1x+ε\qquad(1) y=β0+β1x+ε(1)其中 x , y x,y x,y分别为自变量和因变量; β 0 , β 1 β_0,β_1 β0,β1为参数; ε ε ε为1个随机变量.而简单线性回归方程(Simple Linear Regression Equation)为 E ( y ) = β 0 + β 1 x ( 2 ) E(y)=β_0+β_1x\qquad(2) E(y)=β0+β1x(2)其中 β 0 β_0 β0称为截距(Intercept)或偏置(Bias), β 1 β_1 β1称为权重(Weight),统称回归系数(Regression Coefficient).该方程是通过对 ( 1 ) (1) (1)式两侧同时求期望得到的,对应的图像是1条直线,称为回归线
相应的估计简单线性回归方程(Estimated Simple Linear Regression Equation)为 y ^ = b 0 + b 1 x ( 3 ) \hat{y}=b_0+b_1x\qquad(3) y^=b0+b1x(3)其中 b 0 , b 1 b_0,b_1 b0,b1为参数, x x x为自变量, y ^ \hat{y} y^为因变量 y y y的估计值
( 3 ) (3) (3)式需要满足 min 1 2 ∑ i = 1 n ( y i − y ^ i ) 2 \min\:{\frac{1}{2}\displaystyle\sum_{i=1}^n(y_i-\hat{y}_i)^2} min21i=1∑n(yi−y^i)2其中 ( x i , y i ) (x_i,y_i) (xi,yi)为所有数据点, y ^ i \hat{y}_i y^i为 ( 3 ) (3) (3)式在 x i x_i xi处的值.这是1个最小二乘问题,通过正规方程可解得 b 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 b 0 = y ˉ − b 1 x ˉ b_1=\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}\\b_0=\bar{y}-b_1\bar{x} b1=i=1∑n(xi−xˉ)2i=1∑n(xi−xˉ)(yi−yˉ)b0=yˉ−b1xˉ也可使用梯度下降求解
(2)假设:
经典线性回归模型要求满足下述假设:
① ① ①为满足正态分布的独立实随机变量
② E ( ε ) = 0 ②E(ε)=0 ②E(ε)=0
③ ③ ③同方差假定(Homoscedasticity Supposition): D ( ε ) = σ 2 D(ε)=σ^2 D(ε)=σ2
④ ④ ④随机项非自相关假定(Nonautocorrelation Supposition): C o v ( ε i , ε j ) = 0 Cov(ε_i,ε_j)=0 Cov(εi,εj)=0,其中 ε i , ε j ε_i,ε_j εi,εj是 x x x取不同值时的随机项
⑤ ⑤ ⑤高斯-马尔可夫假定(Gauss-Markov Supposition): C o v ( ε , x ) = 0 Cov(ε,x)=0 Cov(ε,x)=0
2.多元线性回归:
多元线性回归(Multiple Linear Regression)则是指找到多个自变量与1个因变量间的线性关系.多元线性回归模型(Multiple Linear Regression Model)为 y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β p x p + ε ( 4 ) y=β_0+β_1x_1+β_2x_2+...+β_px_p+ε\qquad(4) y=β0+β1x1+