费雪信息
之前写过的文章20240616日志:大模型压缩方法DMS里具体介绍了费雪信息,在一组观测数据中,Fisher信息量越大,对未知参数的估计就越准确。
I w def = E [ ( ∂ ∂ w log p ( D ∣ w ) ) 2 ] (1) I_w^{\text{def}}=\mathbb{E}\left[\left(\frac{\partial}{\partial w}\log p(\mathcal{D}|w)\right)^2\right]\tag{1} Iwdef=E[(∂w∂logp(D∣w))2](1)
但是,Fisher信息量计算代价太大。
FWSVD: Fisher-Weighted SVD
寻求一个基于经验的费雪信息量 I w e m p I_w^{\mathrm{emp}} Iwemp,用公式2表示
I w d e f ≈ I w e m p = 1 ∣ D ∣ ∑ i = 1 ∣ D ∣ ( ∂ ∂ w L ( d i ; w ) ) 2 (2) I_w^{\mathrm{def}}\approx I_w^{\mathrm{emp}}=\frac{1}{|\mathcal{D}|}\sum_{i=1}^{|\mathcal{D}|}\left(\frac{\partial}{\partial w}\mathcal{L}\left(d_i;w\right)\right)^2\tag{2} Iwdef≈Iwemp=∣D∣