内容56-88PDF
通过55页的图我们知道一元线性回归就是需要找到一条线性的直线来尽量的拟合数据点。
那么b就是表示这条线的斜率。如果X是随便产生的数,那么我们就可以说b的变化是X变化导致Y的变化。如果b是0,那么X,Y没关系。如果b是实验数据不是随机产生的,那么Y的变化不仅仅是X的变化,还有导致X变化的原因。
在线性回归中我们假设:
- Linearity 线性
应变量和每个自变量都是线性关系。 - Indpendence 独立性
对于所有的观测值,它们的误差项相互之间是独立的。 - Normality 正态性
误差项服从正态分布。
线性回归模型的正态性指的是模型的残差服从均值为0方差为σ^2
61页身高体重的例子:
然后对a,b求偏导,
合起来我们就可以得到一个线性方程:
同时在hate beta我们可以发现,分子是Cov分母是Var:用身高和体重例子老说Cov是身高乘体重,Var是身高的平方,hate beta就是体重/身高。
说完hate beta,再来看看intercept截距系数。截距系数保证了线性回归模型的线经过(mean X,mean Y)
常量的添加不会影响回归系数(beta)
线性回归缺点受到异常值的影响很大。当然除了最小二乘还可以梯度下降来找到最小值。(之后课讲)
多变量线性回归
多的变量可以减少置信区间,让预测的值更加准确。
beta_0就是曾经的a。
正则化就是限制模型的复杂度,同时还保证准确度。增加惩罚项。
过拟合:
当我们在数据集上运行训练算法时,我们允许总成本(即从每个点到线的距离)随着更多的迭代而变小。 长时间运行此训练算法可以使总成本降至最低。 但是,这意味着该线将适合所有点(包括噪声)。那么它就无法为从未见过的输入预测可能的输出。就不好。
那么我们的线性回归方程就变成均方误差(MSE)加上一个惩罚项:
这个惩罚项可以是L1(Lasso回归)或者L2(Ridge回归)
正则回归的方程求导:
https://blog.csdn.net/chunyun0716/article/details/50759532
之前的文章也介绍过了不重复了
https://blog.csdn.net/None_Pan/article/details/106009362?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162295754116780366526248%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=162295754116780366526248&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2blogfirst_rank_v2~rank_v29-2-106009362.nonecase&utm_term=L1,L2&spm=1018.2226.3001.4450
偏差方差分解
我们细看上面的均方误差,发现可以把括号内分为Variance和Bias。