目录
本人为小白,欢迎补充!
1 什么是线性回归?
百度上的解释是“线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,其表达形式为y = a*x+b,类似于我们学过的二元一次方程,这里给出一个示例:y=3x+6。
在线性回归分析中,包括一次线性回归和多次线性回归分析。
一元线性回归分析指的是,只有一个自变量和一个因变量,且可以用一条直线近似表示。如下图:
多元线性回归分析指的是,两个或两个以上的自变量,且因变量和自变量之间是线性关系。如下图:
2 机器学习中的线性回归模型
对于机器学习来说,回归算法是相对于分类算法来说的。分类顾名思义,将所给的变量分为不同类别,例如,从一碗豆子里面区分红豆、绿豆、黑豆、黄豆等,根据其不同的特征来进行区分;回归是指根据已有的信息,预测一个连续的值,例如,根据房子信息得到了一个价格和大小之间函数,可以用来预测房价,给定一个房子的大小,可以输出房子的价格。
在机器学习中,必须是自变量和因变量呈现线性关系才可以选择线性回归模型。
在线性回归模型中,我们通过寻找最佳的线性函数来拟合输入特征和输出变量之间的关系。线性回归模型假设输入特征与输出变量之间存在线性关系。线性回归模型的数学表达式如下:
y = β0 + β1x1 + β2x2 + ... + βnxn
其中,y为输出变量,x1, x2, ..., xn为输入特征,β0, β1, β2, ..., βn为模型的系数。
在训练过程中,我们一般通过最小二乘法来寻找合适的线性回归模型,通过最小化均方误差(MSE)来求解最佳的系数,使得模型的预测值与真实值的差异最小化。
线性回归模型在机器学习中应用广泛,特别适用于输入特征与输出变量之间存在线性关系的问题。它可以用来进行预测和回归分析,如房价预测、销售量预测等。
3 一元线性回归模型
一元线性回归模型是一种用于建立两个变量(一个自变量、一个因变量)之间线性关系的模型,用通俗的话来说,就是找一条直线尽量能够拟合图中的所有数据点。
在给定的自变量值下,因变量值服从一个线性关系。这个线性关系可以用直线的方程形式表示:
Y = β0 + β1X + ε
其中Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项,表示模型无法解释的部分。
该模型的原理可以简述为以下几步:
- 假设存在一个自变量 x 和一个因变量 y,它们之间存在线性关系。我们假设这个关系可以用一条直线来表示,其方程形式为 y = β0 + β1x,其中 β0 和 β1 是待估参数。
- 为了求解这两个参数,我们需要拟合这条直线使其尽量准确地通过数据点。常用的拟合准则是最小二乘法,即最小化实际观测值 y 与模型预测值之间的差异。
- 最小二乘法拟合的目标是使误差平方和最小化。也就是说,我们要找到一组参数 β0 和 β1,使得∑(y - (β0 + β1x))^2 尽可能小。这可以通过求解误差方程的导数,并令其为零来完成。
- 假设数据集中有 n 个观测值,我们可以得到最小二乘法(也有博主表示为:β1 = Cov(X,Y) / Var(X),β0 = Y的均值 - β1 * X的均值)来求解参数 β0 和 β1。
- 在得到 β0 和 β1 的估计值之后,我们就可以得到线性回归模型的最终方程 y = β0 + β1x。这个方程可以用来预测因变量 y 的值,给定自变量 x 的值。
总结起来,一元线性回归模型通过最小二乘法来拟合一条直线,使其尽可能准确地描述自变量和因变量之间的线性关系。这个模型可以用来预测因变量的值,通过回归系数可以了解自变量的影响程度和方向,通过残差平方和和确定系数可以评估回归模型的拟合程度和解释力度。
4 多元线性回归模型
多元线性回归模型是使用多个自变量来预测因变量的线性模型。它假设因变量和自变量之间存在线性关系,通过最小化预测值与实际观测值之间的误差来确定回归系数。
多元线性回归模型可以表示为:
Y = β0 + β1X1 + β2X2 + ... + βnXn + ε
其中,Y表示因变量,X1, X2, ..., Xn表示自变量,β0, β1, β2, ..., βn表示回归系数,ε表示误差项,表示模型无法解释的部分。
多元线性回归模型的假设包括:线性关系、独立性、常数方差和正态分布。
- 线性关系假设因变量和自变量之间存在线性关系,也就是回归模型是线性的。
- 独立性假设每个观察值之间是相互独立的,在多元线性回归模型中,观测值之间的误差项应该是独立的。
- 常数方差假设误差项的方差在各个自变量值上是恒定的,即误差项的方差不随自变量的变化而改变。
- 正态分布假设误差项服从正态分布,这样才能保证回归系数的无偏性和最小二乘估计的有效性。
多元线性回归的基本原理如下:
- 线性关系假设:假设因变量Y和自变量X之间存在线性关系,即Y = β0 + β1X1 + β2X2 + ... + βnXn + ε,其中Y是因变量,X是自变量,β是回归系数