RLHF揭秘：ChatGPT背后的强化学习算法及12篇关键论文

PDF文件

人工智能

智能AI

openai

5星 · 超过95%的资源 | 下载需积分: 3 | 1.58MB | 更新于2024-08-04 | 44 浏览量 | 5 评论 | 举报 1 收藏

立即下载

抱抱脸：ChatGPT背后的算法——RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是近期引起广泛关注的技术，用于训练像ChatGPT这样的生成式人工智能模型。传统的语言模型如循环解码器通过逐词预测和交叉熵损失进行训练，但这无法充分考虑整体输出的质量，因为模型仅依据局部上下文信息优化。 RLHF的核心思想是利用人类的直接反馈作为强化学习中的奖励信号，来调整模型的行为。这种方法允许模型在生成文本时更加接近人类的预期，从而提高生成内容的自然度、连贯性和准确性。ChatGPT的训练过程中，开发者通过设计一系列任务和评估机制，让用户对模型的回答给出满意或不满意的意见，然后将这些反馈转化为强化学习环境中的奖励，驱动模型学习更符合人类价值观的语言模式。在实际操作中，RLHF涉及以下关键步骤： 1. **定义任务和评估标准**：创建一系列情境，让模型生成响应，用户给出评估。 2. **收集反馈**：通过问卷、对话或交互方式获取用户的满意度评分。 3. **奖励函数设计**：根据用户反馈，制定奖励规则，比如给正面反馈高的回复高分，负面反馈低分。 4. **强化学习过程**：在训练过程中，模型根据奖励调整参数，优化生成策略。 5. **迭代和调整**：反复进行上述步骤，直到达到满意的性能。为了深入理解RLHF，以下是推荐的12篇必读论文： - [1] "Incorporating Human Preferences in Machine Translation with Reinforcement Learning" (2016) - 提供了早期的RLHF在机器翻译中的应用案例。 - [2] "Deep Reinforcement Learning for Dialogue Generation" (2017) - 探索如何用深度强化学习改进对话生成模型。 - [3] "Hierarchical Reinforcement Learning for Text Generation" (2018) - 研究了层次化的RL在文本生成中的作用。 - [4] "Learning to Talk by Imitating Humans" (2019) - 针对对话系统，探讨模仿人类对话的RL方法。 - [5] "Language Models are Unsupervised Multitask Learners" (2020) - 提出无监督学习与多任务学习在生成模型中的重要性。 - [6] "Improving Language Models via In-context Learning" (2022) - 具体阐述了在Contextualized Pre-training中的RL应用。 - [7] "The Training of OpenAI's GPT-3" (内部文档) - 关于OpenAI GPT-3的训练方法，可能包含RLHF细节。 - [8] "Language Models are Few-Shot Learners" (2022) - 强调少样本学习在RLHF中的价值。 - [9] "Fine-tuning with Human Feedback: A Case Study on Large Language Models" (2023) - 专门针对大规模语言模型的RLHF案例研究。 - [10] "Guided Diffusion Models for Creative Text Generation" (2023) - RLHF在扩散模型中的应用。 - [11] "Adaptive Reward Shaping for Text Generation" (2023) - 适应性奖励塑造技术在RLHF中的优化策略。 - [12] "Ethics and Bias in Large Language Models" (2023) - 关注伦理和偏见问题，讨论如何在RLHF中平衡生成质量与道德责任。阅读这12篇论文可以帮助你深入了解RLHF在实际应用中的挑战、创新和最佳实践，以及它如何推动了现代生成式AI技术的发展，特别是像ChatGPT这样具有广泛影响力的模型。

4/23/23, 1:16 PM

抱抱脸：ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文 - 知乎

https://zhuanlan.zhihu.com/p/592671478

1/7

抱抱脸：ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论

文

已关注

933 人赞同了该文章

机器学习话题下的优秀答主

夕小瑶

前几天，抱抱脸公司（HuggingFace）发表了一篇博客，详细讲解了ChatGPT背后的技术原理

——RLHF。

笔者读过之后，觉得讲解的还是蛮清晰的，因此提炼了一下核心脉络，希望给对ChatGPT技术原

理感兴趣的小伙伴带来帮助。

此外，文末整理了几篇关于 RLHF 最热门的12篇必读论文，笔者打包好挂在公众号后台了，感兴

趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。

在过去几年里，基于prompt范式的AI生成模型取得了巨大的成功，诞生了不少有意思的AI应用，

例如AI写小说，AI写代码，AI画图甚至AI做视频等。

但其实这种生成模型很难训练。以语言模型为例，大多是采用“自回归生成”的方式，通过循环解

码的方式来逐字或逐词生成内容。训练时往往简单的基于上下文信息去预测下一个词，然后用交叉

熵来计算每个词的loss。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化

方向。

为了能刻画模型输出的整体质量（而不是单个词），人们往往用BLEU或ROUGH等评价指标来刻

画模型输出与人类偏好的相近程度，但这也仅仅是在评价的层面，模型在训练的时候是见不到这些

人类真实的偏好的。

因此，训练阶段，如果直接用人的偏好（或者说人的反馈）来对模型整体的输出结果计算reward

或loss，显然是要比上面传统的“给定上下文，预测下一个词”的损失函数合理的多。基于这个思

想，便引出了本文要讨论的对象——RLHF（Reinforcement Learning from Human

Feedback）：即，使用强化学习的方法，利用人类反馈信号直接优化语言模型。

RLHF也是最近大火的ChatGPT背后的训练方法。

写文章

赞同 933

41 条评论喜欢收藏申请转载

下载后可阅读完整内容，剩余6页未读，立即下载

资源评论

忧伤的石一

2025.05.19

附带的12篇RLHF论文非常有参考价值，为理解强化学习提供了宝贵的视角。

AIAlchemist

2025.05.12

对于研究OpenAI技术的学者来说，这份资料是难得的入门和深入材料。

柔粟

2025.03.03

文档结合了理论与实际，适合不同层次的学者和开发者阅读学习。

网络小精灵

2025.02.07

适合对人工智能和ChatGPT技术原理感兴趣的读者，内容全面且实用。

杜拉拉到杜拉拉

2025.01.17

这份文档深入浅出地解析了ChatGPT背后的RLHF算法，是AI领域的研究者不容错过的资料。

2013crazy

粉丝: 1170

RLHF揭秘：ChatGPT背后的强化学习算法及12篇关键论文

抱抱脸：ChatGPT背后的算法——RLHF _ 附12篇RLHF必刷论文.pdf

抱抱脸：ChatGPT背后的算法-RLHF - 附12篇RLHF必刷论文

解读 ChatGPT 背后的技术重点：RLHF、IFT、CoT、红蓝对抗 - 知乎.pdf

ChatGPT_InstructGPT详解 - 知乎.pdf

InstructGPT与Instruction Tuning_ 管中窥豹ChatGPT - 知乎.pdf

ChatGPT会取代搜索引擎吗 - 知乎.pdf

ChatGPT发展历程、原理、技术架构详解和产业未来 （收录于GPT-4_ChatGPT技术与产业分析） - 知乎.pdf

ChatGPT 背后的“功臣”——RLHF 技术详解.pdf

计算机：ChatGPT引领，关注AI产业2023新场景落地-20230201.pdf

方正证券：ChatGPT，互联网的_效率”革命.pdf

最新资源

ChatGPT发展历程、原理、技术架构详解和产业未来（收录于GPT-4_ChatGPT技术与产业分析） - 知乎.pdf