这是一个分类模型,可多分类,选择概率最大的条件概率值作为输出。
特征函数:f(x,y)
这个可以理解为人为定义的特征对,比如x为某个上下文语境信息,y为该语境下的歧义点的解释,那么这就组成一个特征对。
其数学方程式为:
这是一个条件熵,描述x对y的影响。
下面是等式约束:
下面是拉格朗日方程,是一个关于P(先姑且将其视为一个变量,不要用条件概率的概念来看),w0,wi(向量)的函数,另外特征函数 fi 在以离散的形式展开后实际是常量,原始问题为 min max L(P , w0 , wi):
对偶问题为 max min L(P , w0 , wi):
1、对P求导,解得将P表示为wi和w0的式子:
由条件概率之和为1可得如下,即 P 可用 wi 表示:
将条件概率 P 代入 L 后求 max 即可,L 化为 wi 的式子,如下:
这个形式也等价于最大熵模型的极大似然估计表示:
观察这个式子,发现,最后优化的出来的结果为:可以确定 wi ,确定 L,但是w0,P 的值是不知道的,因为级数符号被消去了,导致 fi 不可确定,这是最大熵模型等式约束的一个特点。
改进的迭代尺度法(IIS)优化:
B是一个关于增量的式子,令其偏导为0,有:
解出增量的值即可,可用牛顿迭代法(展开为泰勒一阶形式)不断更新增量值,最终确定这个增量。
拟牛顿法优化:
详见统计学习方法6.3.2