极大似然估计(Maximum Likelihood Estimation)在概率论与数理统计中极为重要的参数估计方法,它是基于贝叶斯理论的,而贝叶斯定理详细解释参看https://blog.csdn.net/To_be_to_thought/article/details/81223561。
Part1.贝叶斯理论(Bayesian Theorem):
为先验概率,
是似然,
为基于数据集y的参数的后验概率,前两式由条件概率公式易得。而对于来自相同总体的样本数据集,
是一样的,只需要知道
即可,而基于不同的采样数据集,
是不一样的。换句话说只有对于来自相同总体(保证先验分布相同)的统一数据集才能比较似然函数(likelihood)大小,“后验概率”是“似然值”的“先验概率”倍。
因为上面的正比例关系,所以记似然函数 。如果数据集中
是独立的或者在给定
时条件独立,则在整个数据集上的似然函数为各个独立样本似然函数的乘积:
为避免计算时数据下溢,并且计算求导更加方便,取对数得到对数似然函数(log-likelihood function):
上述过程中不难看出,贝叶斯估计中有待商榷的就是如何假设出合适准确的先验概率。
Part2:极大似然估计与最小二乘原理的联系
2.1在多元线性回归中,假设
整个数据集D上的似然函数为:
求 取最大值时的参数
,只需要求
的最小值,到了这一步与普通最小二乘法(OLS)的目标函数一致,下面就可以用标准公式法或者梯度下降法求解参数向量
。
2.2极大似然估计与RidgeRegression
除了假设残差 服从某种分布,也可以假设
服从某种分布,具体为
,
,i=1,2,…,p
,并且
和
相互独立。
求 取最大值时的参数
,只需要求
:
上式与岭回归(Ridge Regression)的损失函数一致:
2.3极大似然估计与LassoRegression
假设 ,
,
,并且
和
相互独立。laplace的概率密度函数为:
整个数据集上的似然函数为:
求 取最大值时的参数
,只需要求
:
上式与Lasso的损失函数一致:
至此,OLS、Lasso、Ridge的损失函数都有其概率统计理论支持。