cross-entropy 交叉熵
信息量
信息量个人理解是指验证信息发生所需要的信息多少,所以一个事件发生的概率越大,它的信息量越小。例如以下事件:
-
A : 明早太阳东边升起
-
B : 明早太阳西边升起
我们可以知道事件B直观上给我们的信息量很爆炸,我们验证B发生需要的知识,条件比较多。对于一个小概率事件,它的发生往往给人带来爆炸的信息,我们称它的信息量大。记作:

熵的概念
熵是指信息量的期望,它反映的是信息量的平均取值大小。熵可以看作是按照真实分布p来衡量识别一个样本的所需要的编码长度的期望。记作:
相对熵(KL散度)
相对熵衡量的是两个分布的相似情况,为什么能衡量呢,因为它可以由极大似然估计推导出来的一个指标。例如有一个分布p(x),q(x),我们想要分析这两个分布的差异,我们可以采取下面这个公式:

其中当p分布和q分布越接近时,D趋近于0。
关于KL散度,我们如果拆开来看:

最低0.47元/天 解锁文章
4579

被折叠的 条评论
为什么被折叠?



