A Diversity-Promoting Objective Function for Neural Conversation Models论文阅读笔记

本文探讨了如何通过改进目标函数以提升神经对话模型的多样性。作者提出了MMI-antiLM和MMI-bidi两个方法,通过调整互信息来降低无趣响应的生成概率,以避免生成如"I don't know"这样的常见回答。实验结果显示,这两个模型在Twitter和OpenSubtitle数据集上的BLEU得分优于传统seq2seq模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是李纪为的论文“A Diversity-Promoting Objective Function for Neural Conversation Models”阅读笔记。违章提出使用MMI代替原始的maximum likelihood作为目标函数,目的是使用互信息减小“I don’t Know”这类无聊响应的生成概率。一般的seq2seq模型,倾向于生成安全、普适的响应,因为这种响应更符合语法规则,在训练集中出现频率也较高,最终生成的概率也最大,而有意义的响应生成概率往往比他们小。通过MMI来计算输入输出之间的依赖性和相关性,可以减少模型对他们的生成概率。本文提出了两种模型(其实就是改了下目标函数,而且训练过程中仍然使用likelihood,仅在测试的时候使用新的目标函数将有意义的响应的概率变大~~),MMI-antiLM和MMI-bidi,下面分别进行介绍。

新的目标函数

在介绍模型之前先来看看新的目标函数和普通的目标函数的区别,以便清楚地明白新目标函数的作用和功能。首先看下原始的目标函数,就是在给定输入S的情况下生成T的概率,其实就是一个T中每个单词出现的条件概率的连乘。

接下来看提出的第一个目标函数MMI-antiLM,在其基础上添加了目标序列本身的概率logp(T),p(T)就是一句话存在的概率,也就是一个模型,前面的lambda是惩罚因子,越大说明对语言模型惩罚力度越大。由于这里用的是减号,所以相当于在原本的目标上减去语言模型的概率,也就降低了“I don’t know”这类高频句子的出现概率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值