MiniMax-01技术报告解读(四)后训练

五、后训练

MiniMax-01的后训练框架是其在实际应用中表现出色的关键。通过监督微调(SFT)、离线和在线强化学习(RL),MiniMax-01在多个维度上进行了对齐和优化,确保了模型在长上下文处理、真实场景应用和安全性方面的卓越表现。以下是对后训练过程的详细解析。

5.1 提示收集

MiniMax-01的提示收集过程涵盖了数百万个多样化的高质量查询,这些查询来自多个来源,并经过精心筛选和分类。提示集涵盖了长上下文、编程、数学、逻辑推理、创意写作、函数调用、常识问答和安全相关场景等多个领域。通过复杂的过滤机制,MiniMax-01确保了提示集的多样性和难度分布的合理性。

5.2 奖励模型

MiniMax-01的奖励模型从四个关键维度评估响应,确保模型输出与人类价值观的一致性:

  1. 正确性

对于可以严格验证的响应,MiniMax-01实施了严格的评估系统。对于数学和推理任务,模型生成二元奖励信号,基于答案的一致性进行评估。编程解决方案在安全的沙箱环境中进行测试,性能指标基于测试用例的成功率。

  1. 真实性

MiniMax-01采用了一个验证管道,评估响应的真实性。该过程包括系统响应采样、陈述分解和聚类、众包验证以及使用高级语言模型进行自动比较,生成真实性分数。

  1. 帮助性

评估框架通过确定性和概率性方法评估响应对用户指令的遵从性。MiniMax-01实施了自动规则约束验证系统,并结合人类评估关键指标,包括连贯性、深度、上下文相关性和风格适当性。最终帮助性分数通过加权评分系统结合多个评估信号。

  1. 无害性

基于宪法AI原则,MiniMax-01开发了评估标准,涵盖安全协议、内容适当性和法律合规性。评估系统利用精心校准的提示,并通过早期版本的MiniMax-Text-01提供标准化安全评估。

5.3 监督微调(SFT)

MiniMax-01的SFT数据集构建涉及多阶段过程,利用领域专家模型通过迭代SFT和RL周期生成高质量响应。通过拒绝采样,模型生成多个响应变体,并根据奖励层次选择最佳示范。响应选择过程进一步结合了n-gram和语义相似性过滤器,确保训练数据的多样性和高质量。

5.4 强化学习(RL)

MiniMax-01的强化学习分为离线和在线两个阶段,旨在进一步提升模型在多样化提示分布下的表现。

5.4.1 离线强化学习

MiniMax-01采用直接偏好优化(Direct Preference Optimization, DPO)进行离线RL,优化模型在多样化提示分布下的表现。实验表明,使用SFT训练过的提示和未训练但同源的提示在性能上差异不大,因此MiniMax-01采用SFT训练过的提示进行离线RL。

5.4.2 在线强化学习

在线学习在样本效率和跨领域泛化能力上优于离线学习。MiniMax-01的在线RL强调提示多样性,并优先选择中等成功率的提示以最大化信息增益。通过修改的组相对策略优化(Group Relative Policy Optimization, GRPO),MiniMax-01实现了以下关键创新:

  1. 重要性采样权重裁剪

通过额外的裁剪操作,MiniMax-01调节了重要性采样的幅度,减少了噪声传播。

  1. KL散度优化

通过理论分析方差-偏差权衡,MiniMax-01重新制定了KL散度项,进一步稳定了梯度行为。

  1. 平衡优势估计

确保正负样本之间的奖励贡献均衡,特别是在分布倾斜的场景下,保持了训练动态的稳定性。

5.5 安全对齐

MiniMax-01的安全对齐贯穿SFT和RL阶段,通过以下关键组件确保模型的无害性和帮助性:

  1. 训练数据构建

MiniMax-01构建了高质量的对齐训练数据,涵盖广泛的安全场景。通过安全类别特定提示、真实用户数据收集和提示增强,模型暴露于多样化的安全相关查询中。

  1. 无害奖励模型

MiniMax-01采用了一个基于详细安全规则的无害奖励模型,生成安全且适当的响应。通过将帮助性原则整合到安全规则中,模型能够在提供安全响应的同时保持实用性。

5.6 长上下文适应的训练方法

MiniMax-01提出了一种系统的多阶段训练方法,以增强模型处理长上下文的能力,同时保持短上下文任务的性能。训练方法分为五个阶段:

  1. 初始短上下文训练

第一阶段实施SFT,序列长度限制为8192 token,建立模型在标准长度查询和响应上的基础能力。

  1. 扩展上下文训练

第二阶段将序列长度扩展到1,032,192 token,涵盖多样化的序列长度,促进模型对长上下文的全面适应。

  1. 短上下文偏好优化

第三阶段将序列长度恢复为8192 token,实施直接偏好优化(DPO),确保模型在常规上下文大小上的最优性能。

  1. 长上下文偏好优化

第四阶段通过DPO强化长上下文处理能力,使用1,032,192 token的序列长度进行训练。

  1. 在线强化学习

第五阶段实施短上下文在线强化学习,序列长度为8192 token,进一步提升模型在短上下文任务上的表现。

在这里插入图片描述

5.7 学术基准

MiniMax-01在多个学术基准上进行了全面评估,展示了其在长上下文检索、理解、长上下文学习和知识请求等方面的卓越能力。

5.7.1 核心基准

MiniMax-01在MMLU、MMLU-Pro、SimpleQA、C-SimpleQA、IFEval、Arena-Hard、GPQA、DROP、GSM8k、MATH、MBPP+和HumanEval等基准上表现优异,尤其在中文知识边界和数学推理任务上展现了强大的能力。

在这里插入图片描述

5.7.2 长上下文基准

MiniMax-01在长上下文检索、理解和学习任务上进行了深入评估。通过多轮针在草堆中(MR-NIAH)任务,模型展示了在长达100万token的上下文窗口下的强大记忆能力。在Ruler和LongBench-V2等长上下文问答数据集上,MiniMax-01在复杂推理任务中表现尤为出色。

在这里插入图片描述

5.7.3 长上下文学习

MiniMax-01在MTOB(Machine Translation from One Book)任务中展现了强大的上下文学习能力。尽管训练数据中仅包含少量Kalamang相关内容,模型在仅通过上下文学习后,成功实现了从英语到Kalamang的翻译任务。

在这里插入图片描述

在这里插入图片描述

5.8 用户参与评估

MiniMax-01通过用户参与评估,进一步优化了模型在真实场景中的表现。通过自动评估和专家人工评估,MiniMax-01在通用助手能力、知识问答、创意写作、硬能力、指令遵循、编码、安全性和长上下文处理等方面展现了卓越的性能。

5.8.1 内部评估

MiniMax-01的内部评估涵盖了多个维度,包括通用助手能力、知识问答、创意写作、硬能力、指令遵循、编码、安全性和长上下文处理。评估结果表明,MiniMax-01在真实用户交互场景中表现优异,尤其在创意写作和知识问答任务上展现了强大的能力。

在这里插入图片描述

5.8.2 搜索工具的使用

MiniMax-01通过搜索工具的使用,显著提升了模型在实时信息获取和精确回答上的能力。通过预定义搜索场景和精心构建的SFT数据集,MiniMax-01在搜索决策边界上进行了校准,确保了模型在多样化查询中的高效表现。


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值