以下所有内容均来自 PRML 一书,读者读了之后,有任何没有看懂的,请留言。我是传播知识的小蜜蜂
首先KL-divergence的定义:
如果有个未知的分布为p(x),我们使用q(x)估计它。从信息传输的角度理解,如果使用它们刻画信息编码的方法。那么使用q(x)估计p(x)时,平均额外需要多编码的信息长度为:
KL(p∥q)=−∫p(x)lnq(x)dx−(−∫p(x)ln
以下所有内容均来自 PRML 一书,读者读了之后,有任何没有看懂的,请留言。我是传播知识的小蜜蜂
如果有个未知的分布为p(x),我们使用q(x)估计它。从信息传输的角度理解,如果使用它们刻画信息编码的方法。那么使用q(x)估计p(x)时,平均额外需要多编码的信息长度为: