1.什么是线性回归
线性回归是⼀种⼴泛⽤于统计学和机器学习中的回归分析⽅法,⽤于建⽴⾃变量(特征)与因变量(⽬标)之间的线性关系模型。线性回归的基本原理是寻找⼀条直线(或者在多维情况下是⼀个超平⾯),以最佳地拟合训练数据,使得模型的预测与真实观测值之间的误差最⼩化。下⾯我们来详细解释线性回归的基本原理和假设。
简单线性回归模型:
多元线性回归模型:
其中:
y是因变量(需要预测的值)
x1,x2,…xp是自变量(特征值),可以是一个或者多个。
b0是截距(模型在⾃变量都为0时的预测值)。
b1,b2,…bp是回归系数,表示⾃变量对因变量的影响程度。
线性回归的⽬标是找到合适的回归系数b1,b2,…bp ,以最小化模型的预测误差。通常采⽤最小⼆乘法来估计这些系数,即使得观测值与模型预测值之间的残差平⽅和最小。
线性回归模型的有效性基于以下⼀些关键假设:
1、线性关系假设:线性回归假设因变量和⾃变量之间存在线性关系。这意味着模型试图用⼀条直线(或超平⾯)来拟合数据,以描述⾃变量与因变量之间的关系。
2、独⽴性假设:线性回归假设每个观测值之间是相互独⽴的。这意味着⼀个观测值的误差不受其他观测值的影响。
3、常数方差假设:线性回归假设在⾃变量的每个取值点上,观测值的误差方差都是常数。这被称为同方差性或等⽅差性。
4、正态性假设:线性回归假设观测值的误差服从正态分布。这意味着在不同⾃变量取值点上的误差应该接近正态分布。
如果这些假设不满足,线性回归模型的结果可能不可靠。
2.如何用数学方式描述简单线性回归模型
简单线性回归模型是⼀种⽤于建⽴⾃变量和因变量之间线性关系的统计模型。以下是如何⽤数学方式描述简单线性回归模型的基本元素:
1、自变量(Independent Variable):在简单线性回归中,自变量通常表示为x。它是⼀个特征或输⼊,是我们用来预测因变量的变量。自变量是独⽴于其他变量的,也就是我们不对其做任何改变,而是观察它的取值。
2、因变量(Dependent Variable):在简单线性回归中,因变量通常表示为y 。它是我们希望预测或解释的变
量。因变量的取值依赖于⾃变量的取值,我们的⽬标是建⽴⼀个模型,通过自变量的取值来预测因变量的取值。
3、线性关系:简单线性回归模型假设⾃变量 和因变量 之间存在线性关系。这个线性关系可以⽤以下⽅程表示:
其中, y是因变量,x 是⾃变量, β0是截距(模型在⾃变量为0时的预测值), β1是斜率(⾃变量x对因变量
y的影响程度)。这两个参数β0和 β1是线性回归模型的参数,也称为回归系数或权重。
4、误差项(Error Term):线性回归模型还包括⼀个误差项,通常表示为 。误差项表示了模型⽆法完美拟合真实数据的部分,它包括了所有未被模型考虑的因素,如测量误差、未知变量等。因此,完整的模型⽅程可以写成:我们的⽬标是通过最小化误差项来估计参数β0和 β1,使得模型的预测值与真实观测值尽可能接近。
简单线性回归模型是⼀个描述⾃变量和因变量之间线性关系的数学模型,通过最小化误差项来估计模型的参数β0和 β1,从而可以用自变量的取值来预测因变量的取值。
这是⼀种非常实⽤且务实的⼯具,用于理解和预测变量之间的关系,例如预测销售量与⼴告支出之间的关系或温度与冰淇淋销售量之间的关系等等。
3.什么是最小二乘法,他有什么作用
最小二乘法(OLS,Ordinary Least Squares)是⼀种用于估计线性回归模型参数的常用统计方法。
主要作用是通过最小化观测值与模型预测值之间的残差平方和来确定最佳拟合线性回归模型的参数。
最小二乘法的原理在线性回归中,我们假设自变量和因变量之间存在线性关系,可以用以下模型表示:
其中:
y是因变量(需要预测的值)。
x是⾃变量(特征)。
β0是截距(模型在自变量为0时的预测值)。
β1是斜率(自变量对因变量的影响程度)。
ε是误差项,表示模型⽆法完美拟合真实数据的部分。
最小二乘法的目标是找到最佳的β0和 β1,使得观测值yi和对应的模型预测值yî之间的残差(差值)的平方和
最小化:其中, n是样本数量,yî是根据模型预测的值。
最⼩⼆乘法可以通过以下公式来估计参数β0和 β1:
其中, x拔和y拔分别是⾃变量x和因变量y的均值。
最小二乘法的原理被内部自动应用,从⽽估计出最佳的回归系数β0和 β1。这些系数将用于构建最佳拟合线性模型,以最小化观测值和模型预测值之间的残差平方和。