UA MATH566 统计理论 Fisher信息量的性质上
C-R下界是由Fisher统计量定义的,在推导C-R下界的时候,我们只是把下界的逆定义成了Fisher信息量,但尚未探讨这个量的本质是什么?为什么要叫它信息量?它有哪些性质?以及怎么计算的问题。这一讲我们讨论前两个问题,下一讲讨论它的性质,计算则留到后续的博客结合例题介绍。
Fisher信息量的定义
某分布族为 f ( x , θ ) , θ ∈ Θ f(x,\theta),\theta \in \Theta f(x,θ),θ∈Θ,假设 Θ ⊂ R \Theta \subset \mathbb{R} Θ⊂R,则此时的得分函数关于分布参数是一维的
S ( x , θ ) = ∂ log L ( θ ) ∂ θ = 1 f ( x , θ ) ∂ f ( x , θ ) ∂ θ S(x,\theta) = \frac{\partial \log L(\theta)}{\partial \theta} = \frac{1}{f(x,\theta)} \frac{\partial f(x,\theta)}{\partial \theta} S(x,θ)=∂θ∂logL(θ)=f(x,θ)1∂θ∂f(x,θ)
则它的一阶矩为零,并称它的二阶矩为Fisher信息量
E [ S ( X , θ ) ] = 0 , E [ S ( X , θ ) ] 2 = I ( θ ) E[S(X,\theta)]=0,\ \ E[S(X,\theta)]^2 = I(\theta) E[S(X,θ)]=0, E[S(X,θ)]2=I(θ)
Fisher信息量的数学意义
下面说明为什么 I ( θ ) I(\theta) I(θ)可以用来衡量信息的多少。在UA MATH636 信息论1 熵中我们介绍了熵、Divergence、互信息等用来衡量信息多少的量,下面我们就来讨论一下Fisher信息量与信息论中的这些信息度量之间的关系。
参考UA MATH636 信息论6 微分熵,微分熵的定义是
h ( θ ) = − E [ log f ( x , θ ) ] = − ∫ f ( x , θ ) log f ( x , θ ) d x h(\theta) = -E[\log f(x,\theta)] = -\int f(x,\theta) \log f(x,\theta)dx h(θ)=−E[logf(x,θ)]=−∫f(x,θ)logf(x,θ)dx
计算微分熵的差分
Δ h = h ( θ + Δ θ ) − h ( θ ) = − ∫ f ( x , θ ) [ log f ( x , θ + Δ θ ) − log f ( x , θ ) ] d x \Delta h = h(\theta + \Delta\theta) - h(\theta) = -\int f(x,\theta)[ \log f(x,\theta + \Delta\theta)- \log f(x,\theta)]dx Δh=h(θ+Δθ)−h(θ)=−