RLHF的流程介绍

菠萝哥~

已于 2024-11-04 17:09:40 修改

阅读量701

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM NLP 机器学习文章标签：人工智能深度学习机器学习

于 2024-11-04 16:27:04 首次发布

11 篇文章

订阅专栏

11 篇文章

订阅专栏

10 篇文章

订阅专栏

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是一种结合了人类反馈和强化学习的方法，旨在训练模型使其输出更符合人类的期望。以下是RLHF的基本流程：

目标：获取人类对模型输出的偏好信息，以指导模型的优化方向。
方法：
- 生成候选回复：给定一系列提示（prompts），预训练模型生成多个可能的回复。
- 人类评估：招聘专业的人工评估者，对每个提示下的多个回复进行比较，按照质量从高到低进行排序或评分。
- 数据格式：得到一组数据，包括提示、模型生成的回复，以及对应的人类偏好。具体的人类反馈数据格式示例可参考文章：https://blog.csdn.net/2301_79093491/article/details/143487937?spm=1001.2014.3001.5502

目标：构建一个能够预测人类偏好的模型，为强化学习提供奖励信号。
方法：
- 输入数据：使用人类评估的数据对（回复对及其偏好）。
- 模型结构：通常采用与预训练模型相似的架构，但输出一个标量奖励值。
- 训练过程：通过学习使得奖励模型输出的奖励值与人类的偏好一致。