基于LLM的多轮次对话系统（A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems）

Lavau

已于 2024-10-14 22:06:45 修改

阅读量1.4k

点赞数 16

CC 4.0 BY-SA版权

文章标签： python LLM

于 2024-10-13 22:20:14 首次发布

本文链接：https://blog.csdn.net/Snakehj/article/details/142904465

本文是A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems（https://arxiv.org/pdf/2402.18013）的翻译版本。

（未完待续，逐步翻译、校对中）

文章目录

内容介绍
1. 流行的大语言模型（LLMs）
2. LLM在下游任务上的调参方法
3. LLM的prompt
4. LLM在task-oriented dialogue system（TOD）中的应用
5. LLM在open-domain dialogue system（ODD）中的应用

内容介绍

介绍流行的大语言模型（LLMs）
介绍LLM在下游任务上的调参方法
介绍LLM的prompt
介绍LLM在task-oriented dialogue system（TOD）中的应用
介绍LLM在open-domain dialogue system（ODD）中的应用

1. 流行的大语言模型（LLMs）

2. LLM在下游任务上的调参方法

3. LLM的prompt

Prompt engineering在助力PLMs（Pre-training Language Models）理解给定任务这一领域已备受瞩目。Prompt engineering划分为两种方法：提示调优（Prompt Tuning）和无调优提示（Tuning-free Prompting），此内容将在本节予以探讨。

3.1 提示调优（Prompt Tuning）

提示调优（Prompt Tuning）包含对预训练模型的参数进行修改，或者对额外的与提示相关的参数加以调整，以强化预训练模型对下游任务的适应能力。在这一方面，一种显著的方法是“模式 - 言语化对”（Pattern-Verbalizer-Pair，PVP）结构，其最初由[63]提出。后续的提示调优方法在很大程度上均基于 PVP 框架。如图 6 所示，高等人[64]已经证实，模板和标签的选择能够导致最终精度出现极大的差异。故而，当前的研究主要聚焦于如何选择或构建恰当的模式和言语化器。提示的设计可归类为离散提示（discrete prompt）和连续提示（continuous prompt）。
在这里插入图片描述

3.1.1 离散提示（ Discrete Prompt）

先前的工作致力于对离散提示（亦称为硬提示，hard prompt）的探究，其通常对应于可读的语言短语。在训练期间，离散模板的词嵌入保持恒定，不会向大语言模型（LLMs）引入任何新参数。在以下章节中，我们将对为此目的所提出的若干方法进行详尽概述：

3.1.1.1 Pattern-Exploiting Training，PET

Pattern-Exploiting Training，PET [65]通过手动生成 PVP 内容 p = (P, v) 来构建提示集，其中 P 是一个以 x 为输入并输出一个恰好包含一个掩码标记的短语或句子 P(x) ∈ V* 的函数，v 是一个从每个标签到掩码语言模型词汇表 M 中单词的单射函数 L → V。PET 可表述为：
在这里插入图片描述
其中， $𝑠_𝑝$ 为标签 𝑙 ∈ L 的得分， $𝑞_𝑝$ 为使用 softmax 得到的标签上的概率分布。接着， $𝑞_𝑝$ (𝑙 | 𝑥) 与真实（独热编码）之间的交叉熵被用作在 p 中对 𝑀 进行微调的损失函数。

3.1.1.2 LM-BFF

找到合适的提示既繁琐又容易出错，这既需要领域专业知识，又需要对自然语言处理（NLP）的理解。即便投入了大量精力，手动生成的提示也很可能并非最优。因此，LM-BFF [64] 会自动生成提示，其中包括通过粗略的强力搜索来确定最佳的工作标签词，以及利用 T5 模型自动生成模板 [18]。给定一个固定的模板 𝑇 (𝑥)，基于初始 𝐿 按照其条件似然构建一个包含前 𝑘 个词汇词的精简集合 $𝑉_𝑐$ ⊂ 𝑉 ，可以表述为：
在这里插入图片描述
其中 $𝑃_L$ 表示 L 的输出概率分布。

3.1.1.3 Prompt Tuning with Rules，PTR

规则提示微调（Prompt Tuning with Rules，PTR）[66] 能够应用逻辑规则将少量人工创建的子提示自动组合为最终的特定任务提示。以relation classification（关系分类）为例，给定一个句子 𝑥 = {… $𝑒_𝑠$ … $𝑒_𝑜$ …} ，其中 $𝑒_𝑠$ 和 $𝑒_𝑜$ 分别为subject entity（主体实体）和object entity（客体实体）， $𝑒_𝑠$ 和 $𝑒_𝑜$ 的子提示模板和标签词集可以形式化为：
在这里插入图片描述而 $𝑒_𝑠$ 与 $𝑒_𝑜$ 之间关系的子提示可以形式化为：

通过对这些子提示进行聚合，完整的提示如下：

PTR 的最终学习目标在于实现最大化 :

其中， $Font metrics not found for font: .$ 的作用是将类别 𝑦 映射至第 𝑗 个被掩码位置 $𝑀𝐴𝑆𝐾]_𝑗$