最大熵模型

本文深入解析最大熵模型的原理与应用,从等可能性的概念出发,介绍如何通过数学公式量化这一原则,实现变量概率的最优化分配。以英汉翻译为例,详细阐述特征函数的引入及其在限制模型中的作用,帮助读者理解最大熵模型在实际问题中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、最大熵模型的理解

最大熵模型是由最大熵原理推导而来的,最大熵原理认为在所有可能的概率模型中,熵最大的模型是最好的模型。即在满足约束条件的情况下,所有变量的取值都是等可能的。

假设有如下的离散分布:

x12......k
pp1p2......pk

        \sum_{1}^{k}p_{k}=1 

        现在利用最大熵原理,证明熵最大的情况下,所有变量的概率取值是相同的。

最大熵模型将概念中的等可能性转化为了一个可以定量描述的数学式子,要想各个变量的概率值相等,只要让熵最大即可。

二、最大熵模型的定义

最大熵模思想简单,但是定义模型后比较难理解,在统计学习方法中,有特征函数的引入,不知道为什么这样引入,所以这里引入一个例子,可以帮助我们理解模型。例子来自参考资料2-语言处理技术中的最大熵模型方法。

下面举例说明,以英汉翻译为例,对于英语中的“take”,它对应汉语的翻译有:

1 “抓住”: The mother takes her child by the hand. 母亲抓住孩子的手。

2 “拿走”:Take the book home. 把书拿回家。

3 “乘坐”:to take a bus to work. 乘坐公共汽车上班。

4 “量”: Take your temperature. 量一量你的体温。

5 “装”:The suitcase wouldn't take another thing. 这个衣箱不能装别的东西了。

6 “花费”:It takes a lot of money to buy a house. 买一所房子要花一大笔钱。

7 “理解、领会”:How do you take this package? 你怎么理解这段话?

现在我们有这7个数据,对take进行翻译。

首先,我们会认为取得每一种翻译的概率相等是\frac{1}{7},但是这样实际上并不符合实际,抓住和拿走的翻译在日常生活中可能用到的比较多,假设取到这两种翻译的概率是\frac{2}{5},则其他五种的概率为\frac{3}{5}。如果采用最大熵模型的话,表示他们取得的概率相同,即翻译为抓住和拿走的概率为\frac{1}{5},翻译为其他5种的概率为\frac{3}{25}。加入这样的限制条件下,模型表现的会比上一个好,但是我们并没有考虑上下文的情况。take翻译为乘坐的概率比较小,但是如果后面有bus,那么这个词翻译为乘坐的概率就比较大。用数学公式表示如下:

当x中有bus,并且y翻译为乘坐是函数为1,否则为零。这个式子就叫做特征函数。特征函数的引入是为了限制最大熵模型。

假设给定训练集:

T={(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)}

我们的目标就是用最大熵模型选择最好的分类模型,

首先,我们需要把数据转化为数学公式,这样才能输入模型进行训练。

引入关于P(x,y)的经验分布和边缘分布P(X)分别用\widetilde{P}(X=x,Y=y)\widetilde{P}(X)表示:

\widetilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}

\widetilde{P}(X=x)=\frac{v(X=x)}{N}

其中,v(X=x)表示训练数据中x出现的频数,N表示样本容量。这两个函数是对样本的表达。也就是对已知事实的表达。

而特征函数的引入是为求期望,从而完成对已知事实的数学描述。使得样本的期望概率值和经验概率值相等。即:

E_{p}(f)=E_{\widetilde{p}}(f)

约束就变为:

\sum_{}{x,y}\widetilde{P}(x)P(y|x)f(x,y)=\sum_{}{x,y}\widetilde{P}(x,y)f(x,y)

结合条件熵,最大熵模型表示如下:

max H(P)=-\sum_{}{x,y}\widetilde{P}(x)P(y|x)log(p(y|x))

      s.t. \sum_{}{x,y}\widetilde{P}(x)P(y|x)f(x,y)=\sum_{}{x,y}\widetilde{P}(x,y)f(x,y)

            \sum_{}P(y|x)=1

三、最大熵模型结果

在上面的优化问题求解完成之后,就会得到最大熵模型的结果。

 

参考资料:1>机器学习-白板推导系列(八)-指数族分布(Exponential Family Distribution)

                    2>语言信息处理技术中的最大熵模型方法

                    3>深度之眼-统计学习方法训练营

                    4>统计学习方法-第二版-李航

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值