基于人类反馈的强化学习微调与模型部署优化

立即解锁

发布时间: 2025-09-03 00:28:28 阅读量: 19 订阅数: 21

生成式AI实战：从理论到应用

### 基于人类反馈的强化学习微调与模型部署优化 #### 1. 基于人类反馈的强化学习微调（RLHF）在强化学习从人类反馈（RLHF）的过程中，每次迭代都会更新模型的权重，类似于其他类型的模型训练和微调，迭代会持续进行一定的步数和轮次。随着时间的推移，生成模型产生的有毒完成内容会减少，从而获得更高的奖励。迭代会一直持续，直到模型达到基于评估阈值（如毒性分数）的对齐标准，或者达到最大配置迭代次数 `max_ppo_steps`。 ##### 1.1 RLHF 流程代码 ```python # Extract prompts from the input batch prompt_tensors = batch["input_ids"] # Prepare list to collect the summaries summary_tensors = [] # For each input prompt, generate a summary completion for prompt_tensor in prompt_tensors: summary = ppo_trainer.generate(prompt_tensor, **generation_kwargs) # Append the summaries summary_tensors.append( summary.squeeze()[-max_new_tokens:]) # This needs to be called "response". batch["response"] = [tokenizer.decode(r.squeeze()) for r in summary_tensors] # Compute reward outputs for combined query and response query_response_pairs = [q + r for q, r in zip(batch["query"], batch["response"])] # Calculate rewards across both classes rewards = toxicity_evaluator( query_response_pairs, **reward_kwargs) # Extract the reward value from the `nothate` class reward_tensors = [torch.tensor(reward[not_hate_index]["score"]) for reward in rewards] # Run PPO step with prompts, summaries, and rewards ppo_trainer.step(prompt_tensors, summary_tensors, reward_tensors) ``` ##### 1.2 缓解奖励作弊问题在基于奖励的系统中，存在忽略约束并“破解奖励”的倾向。在强化学习中，智能体可能会学会作弊以最大化奖励，即使所选行动导致错误状态。例如，生成模型可能会生成无意义、语法错误的标记序列，以最大化奖励（如低毒性），但不遵循原始语言模型的学习成果，甚至完全偏离人类语言。为避免奖励作弊，常用的技术是在进行任何强化学习或权重更新之前，先复制原始指令模型。然后冻结复制模型的权重，将其用作不可变的“参考模型”。在 RLHF 过程中，每个提示都会由冻结的参考模型和正在使用 RLHF 进行微调的模型完成。接着，比较这两个完成结果，使用 Kullback - Leibler 散度（KL 散度）计算两个标记概率分布之间的统计距离。以下是配置 `PPOTrainer` 类以添加冻结参考模型的代码： ```python from trl import PPOTrainer from trl import AutoModelForCausalLMWithValueHead from trl import create_reference_model from transformers import AutoTokenizer model_checkpoint = "..." # generative model like Llama2, Falcon tokenizer = AutoTokenizer.from_pretrained(model_checkpoint) model = AutoModelForCausalLMWithValueHead.from_pretrained( model_checkpoint, torch_dtype=torch.bfloat16) ref_model = create_reference_model(model) ppo_trainer = PPOTrainer( model=model, # tunable model ref_model=ref_model, # frozen reference model tokenizer=tokenizer, dataset=dataset) ``` ##### 1.3 使用参数高效微调（PEFT）与 RLHF 参数高效微调（PEFT）可与 RLHF 结合使用，以减少计算密集型的近端策略优化（PPO）算法所需的计算和内存资源。具体来说，只需要更新模型的较小的 PEFT 适配器权重，而不是可调模型的全部权重。 ##### 1.4 评估 RLHF 微调模型可以使用定性和定量评估技术来评估 RLHF 微调后的模型。 **定性评估**： | 评估阶段 | 完成内容 | | ---- | ---- | | RLHF 前（较低奖励） | #Person1# asks #Person2# about the restaurant. #Person2# liked the food but it wasn't as good as #Person2# expected it to be. #Person2#'s tired of the restaurant. | | RLHF 后（较高奖励） | #Person2# describes the restaurant to #Person1# and the food situation. #Person2# doesn't want to try the restaurant again. | 从主观比较来看，RLHF 后的完成

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

基于人类反馈的强化学习微调与模型部署优化

相关推荐

专栏目录

基于人类反馈的强化学习微调与模型部署优化

相关推荐

DeepSeek大模型本地部署与强化学习训练详解及其应用场景

大型语言模型DeepSeek-R1中强化学习与监督微调在AI安全性方面的对比与优化

人工智能大模型训练与微调技术综合考核：指令微调、模型压缩及云边端部署方案设计

大语言模型微调技术：LoRA、QLoRA、提示调优与基于人类反馈的强化学习

DeepSeek本地部署与训练解析：大模型推理优化及强化学习技术详解

大模型与人工智能_深度学习_神经网络_Transformer架构_强化学习_模型微调_多模态学习_智能体开发_知识蒸馏_提示工程_大模型优化_分布式训练_LLM应用开发_大模型研究.zip

大模型微调和应用、强化学习、大模型数据质量、LLMOps、因果推断知识地图.pdf

2025年人工智能大模型核心技术解析：Transformer架构、预训练微调、强化学习、模型压缩与隐私保护.pdf

大模型微调和应用、强化学习、大模型数据质量、LLMOps、因果推断知识地图 数据湖、云原生、向量数据库知识地图 数据治理、AB实验、指标体系、DataOps知识地图 智能风控、大模型与推荐、智能供应

高效微调技术：LoRA、QLoRA、提示调优与基于人类反馈的强化学习

关于EKF、AEKF、HIF和PF的Matlab代码，用于估计电池单元的SoC_Matlab codes about E

专栏目录

最新推荐

DHT11异常复位难题破解：STM32H7平台底层驱动+电源设计深度剖析

误差来源全面曝光：斜边法MTF计算的校正方法研究

【MFC多显示器适配指南】：解决高DPI_多屏缩放的8种经典方案（实测Win10_Win11兼容）

【Python继承机制深度剖析】：单继承与多继承性能与设计优劣分析

非平稳信号处理进阶：红白噪声检验的核心作用与Matlab应用

低耗SDK设计指南：移动环境下电量与流量控制技巧

高并发场景下稳定性如何保障？PowerBuilder正则表达式多线程实战解析

MySQL备份与恢复全攻略：保障数据安全的10个关键步骤

DMA中断与SPI外设冲突排查实战：快速定位问题的6大技巧

插件化架构设计解析：iFIAS+如何实现灵活扩展与模块解耦（架构师进阶篇）

大模型微调和应用、强化学习、大模型数据质量、LLMOps、因果推断知识地图数据湖、云原生、向量数据库知识地图数据治理、AB实验、指标体系、DataOps知识地图智能风控、大模型与推荐、智能供应