极大似然估计的直观推导和应用(OLS、Lasso、Ridge)

本文深入探讨了极大似然估计(MLE)在概率论与数理统计中的应用,及其与贝叶斯理论的关系。通过分析,揭示了MLE与最小二乘法、Ridge回归和Lasso回归之间的联系,提供了对这些常见统计方法背后的理论基础的深刻理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

极大似然估计(Maximum Likelihood Estimation)在概率论与数理统计中极为重要的参数估计方法,它是基于贝叶斯理论的,而贝叶斯定理详细解释参看https://blog.csdn.net/To_be_to_thought/article/details/81223561

Part1.贝叶斯理论(Bayesian Theorem):

                                                     

为先验概率, 是似然, 为基于数据集y的参数的后验概率,前两式由条件概率公式易得。而对于来自相同总体的样本数据集, 是一样的,只需要知道 即可,而基于不同的采样数据集, 是不一样的。换句话说只有对于来自相同总体(保证先验分布相同)的统一数据集才能比较似然函数(likelihood)大小,“后验概率”是“似然值”的“先验概率”倍。

因为上面的正比例关系,所以记似然函数 。如果数据集中 是独立的或者在给定 时条件独立,则在整个数据集上的似然函数为各个独立样本似然函数的乘积:

                                                             

为避免计算时数据下溢,并且计算求导更加方便,取对数得到对数似然函数(log-likelihood function):

                                                                   

上述过程中不难看出,贝叶斯估计中有待商榷的就是如何假设出合适准确的先验概率。

Part2:极大似然估计与最小二乘原理的联系

2.1在多元线性回归中,假设

                               

整个数据集D上的似然函数为:

                                           

取最大值时的参数 ,只需要求 的最小值,到了这一步与普通最小二乘法(OLS)的目标函数一致,下面就可以用标准公式法或者梯度下降法求解参数向量

2.2极大似然估计与RidgeRegression

除了假设残差 服从某种分布,也可以假设 服从某种分布,具体为 ,i=1,2,…,p ,并且 相互独立。

                                       

取最大值时的参数 ,只需要求 :

                                                   

上式与岭回归(Ridge Regression)的损失函数一致:

                                                              

2.3极大似然估计与LassoRegression

假设 ,并且 相互独立。laplace的概率密度函数为:

                                                                     

整个数据集上的似然函数为:

                            

取最大值时的参数 ,只需要求 :

                                                     

上式与Lasso的损失函数一致:

                                                           

至此,OLS、Lasso、Ridge的损失函数都有其概率统计理论支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值