【机器学习】线性回归模型

九筠

已于 2024-11-16 18:18:08 修改

阅读量1.4k

点赞数 34

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习线性回归人工智能

于 2024-11-12 22:07:50 首次发布

本文链接：https://blog.csdn.net/zxqq_/article/details/143695704

本人为小白，欢迎补充！

1 什么是线性回归？

百度上的解释是“线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，其表达形式为y = a*x+b，类似于我们学过的二元一次方程，这里给出一个示例：y=3x+6。

在线性回归分析中，包括一次线性回归和多次线性回归分析。

一元线性回归分析指的是，只有一个自变量和一个因变量，且可以用一条直线近似表示。如下图：

多元线性回归分析指的是，两个或两个以上的自变量，且因变量和自变量之间是线性关系。如下图：

2 机器学习中的线性回归模型

对于机器学习来说，回归算法是相对于分类算法来说的。分类顾名思义，将所给的变量分为不同类别，例如，从一碗豆子里面区分红豆、绿豆、黑豆、黄豆等，根据其不同的特征来进行区分；回归是指根据已有的信息，预测一个连续的值，例如，根据房子信息得到了一个价格和大小之间函数，可以用来预测房价，给定一个房子的大小，可以输出房子的价格。

在机器学习中，必须是自变量和因变量呈现线性关系才可以选择线性回归模型。

在线性回归模型中，我们通过寻找最佳的线性函数来拟合输入特征和输出变量之间的关系。线性回归模型假设输入特征与输出变量之间存在线性关系。线性回归模型的数学表达式如下：

y = β0 + β1x1 + β2x2 + ... + βnxn

其中，y为输出变量，x1, x2, ..., xn为输入特征，β0, β1, β2, ..., βn为模型的系数。

在训练过程中，我们一般通过最小二乘法来寻找合适的线性回归模型，通过最小化均方误差（MSE）来求解最佳的系数，使得模型的预测值与真实值的差异最小化。

线性回归模型在机器学习中应用广泛，特别适用于输入特征与输出变量之间存在线性关系的问题。它可以用来进行预测和回归分析，如房价预测、销售量预测等。

3 一元线性回归模型

一元线性回归模型是一种用于建立两个变量（一个自变量、一个因变量）之间线性关系的模型，用通俗的话来说，就是找一条直线尽量能够拟合图中的所有数据点。

在给定的自变量值下，因变量值服从一个线性关系。这个线性关系可以用直线的方程形式表示：

Y = β0 + β1X + ε

其中Y是因变量，X是自变量，β0和β1是回归系数，ε是误差项，表示模型无法解释的部分。

该模型的原理可以简述为以下几步：

假设存在一个自变量 x 和一个因变量 y，它们之间存在线性关系。我们假设这个关系可以用一条直线来表示，其方程形式为 y = β0 + β1x，其中 β0 和 β1 是待估参数。
为了求解这两个参数，我们需要拟合这条直线使其尽量准确地通过数据点。常用的拟合准则是最小二乘法，即最小化实际观测值 y 与模型预测值之间的差异。
最小二乘法拟合的目标是使误差平方和最小化。也就是说，我们要找到一组参数 β0 和 β1，使得∑(y - (β0 + β1x))^2 尽可能小。这可以通过求解误差方程的导数，并令其为零来完成。
假设数据集中有 n 个观测值，我们可以得到最小二乘法（也有博主表示为：β1 = Cov(X,Y) / Var(X)，β0 = Y的均值 - β1 * X的均值）来求解参数 β0 和 β1。
在得到 β0 和 β1 的估计值之后，我们就可以得到线性回归模型的最终方程 y = β0 + β1x。这个方程可以用来预测因变量 y 的值，给定自变量 x 的值。

总结起来，一元线性回归模型通过最小二乘法来拟合一条直线，使其尽可能准确地描述自变量和因变量之间的线性关系。这个模型可以用来预测因变量的值，通过回归系数可以了解自变量的影响程度和方向，通过残差平方和和确定系数可以评估回归模型的拟合程度和解释力度。