回归算法——Logistics回归、Log对数损失、交叉熵损失
1.定义
Logistic算法是一个二分类算法,它通过Sigmoid函数,把函数值映射到0~1之间。其概率估计函数公式如下:
p^i=hθ(Xi)=σ(θTXi) \hat p_i=h_\theta(X_i)=\sigma(\theta^TX_i) p^i=hθ(Xi)=σ(θTXi)
其中p^i\hat p_ip^i为样本XiX_iXi的最终估计概率,θ\thetaθ为回归模型的特征参数向量,XiX_iXi为某一样本,其中σ()\sigma()σ()为Sigmoid函数。
σ(t)=11+e−t \sigma(t) = \frac{1}{1+e^{-t}} σ(t)=1+e−t1
于是便有如下逻辑回归分类模型:
Yi^={
0,pi^<0.51,pi^≥0.5 \hat{Y_i} = \begin{cases} 0,\hat{p_i}<0.5\\ 1,\hat{p_i}\ge0.5 \end{cases} Yi^={
0,pi^<0.51,pi^≥0.5
即当样本XiX_iXi的预测概率小于0.5时,其预测分类为0;反之,其预测分类为1。我们也可以通过sigmoid函数知道,当θTXi<0\theta^TX_i<0θTXi<0时,其预测分类为0;θTXi≥0\theta^TX_i\ge0θTXi≥0时其预测分类为1。
好了,既然我们知道Logistic模型是如何进行预测分类的了,那么接下来就讨论一下,我们要如何使模型更能准确的预测出样本分类,即我们如何调整模型的θ\thetaθ特征参数向量。于是我们就要引入损失函数的概念,即使用何种函数来定义本模型的好坏,并使用何种优化方式来使损失函数尽可能最小。
2.Log对数损失
Log对数损失, 即对数似然损失(Log-likelihood Loss), 也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss),它是采取极大似然估计思想来进行设计的。下面就讲一下极大似然估计思想:
假设样本X服从某一分布(比如0-1分布),现在要做的是就是根据样本X估计该分布参数θ\thetaθ的值,直观上来讲,由于已知样本X,那么这个样本X的产生一定与未知的θ\thetaθ有关,既然已有样本X了,则认为θ\thetaθ的值应该是使p(X/θ)p(X/\theta)p(X/θ