机器学习之最大熵模型

厉害了我的汤

于 2020-01-23 17:11:41 发布

阅读量280

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YD_2016/article/details/104076773

这是一个分类模型，可多分类，选择概率最大的条件概率值作为输出。

特征函数：f(x,y)
这个可以理解为人为定义的特征对，比如x为某个上下文语境信息，y为该语境下的歧义点的解释，那么这就组成一个特征对。

其数学方程式为：
在这里插入图片描述
这是一个条件熵，描述x对y的影响。
下面是等式约束：

下面是拉格朗日方程，是一个关于P(先姑且将其视为一个变量，不要用条件概率的概念来看)，w0，wi(向量)的函数，另外特征函数 fi 在以离散的形式展开后实际是常量，原始问题为 min max L(P , w0 , wi)：
在这里插入图片描述
对偶问题为 max min L(P , w0 , wi)：
1、对P求导，解得将P表示为wi和w0的式子：

由条件概率之和为1可得如下，即 P 可用 wi 表示：

将条件概率 P 代入 L 后求 max 即可，L 化为 wi 的式子，如下：

这个形式也等价于最大熵模型的极大似然估计表示：
在这里插入图片描述

观察这个式子，发现，最后优化的出来的结果为：可以确定 wi ，确定 L，但是w0，P 的值是不知道的，因为级数符号被消去了，导致 fi 不可确定，这是最大熵模型等式约束的一个特点。

改进的迭代尺度法(IIS)优化：
在这里插入图片描述

B是一个关于增量的式子，令其偏导为0，有：

解出增量的值即可，可用牛顿迭代法(展开为泰勒一阶形式)不断更新增量值，最终确定这个增量。

拟牛顿法优化：
详见统计学习方法6.3.2

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。