
大模型与智能体
文章平均质量分 94
“大模型与智能体“专栏聚焦AI尖端科技,为您简化复杂的AI理论,直击核心:
大模型揭秘:一览GPT系列等巨型语言模型如何革新信息处理,依托海量数据学会语言的微妙艺术。
智能体新纪元:追踪智能体从基础到高级演化,揭示它们如何在各领域做出智能决策,重塑工作与生活模式。
每期精选内容,助您把握AI未来趋
樱花的浪漫
梦想还是要有的,更要成为一名不懈追求梦想的人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Learning without training:The implicit dynamics of in-context learning
大型语言模型和transformer架构[1]已经彻底改变了机器学习领域,并将在许多工业、科学和艺术领域产生类似的影响。尽管影响广泛,但LLM(大型语言模型)如何获得使其如此有用的新兴属性的机制在很大程度上仍然是一个理论谜团[2]。在这项工作中,我们关注LLM在上下文中学习的能力[3][4],在训练完全完成后,从训练期间未见过的例子中学习,但通过提示提供给训练过的系统。历史上,在机器学习中,从一系列例子中提取模式的能力被认为是一个动态过程,其中模型权重随着通过优化过程消耗的例子而更新[5]。原创 2025-08-04 10:35:23 · 23 阅读 · 0 评论 -
Unified Multimodal Chain-of-Thought Reward Modelthrough Reinforcement Fine-Tuning
2505.03318v1https://arxiv.org/pdf/2505.03318v1 近年来,多模态奖励模型(RMs)[Wang et al. 2024 2025, Zang et al. 2025, Xiong et al. 2024, He et al. 2024, Xu et al. 2024, Liu et al. 2025a, Li et al. 2025] 在将视觉模型输出与人类偏好对齐方面表现出色,为模型训练提供了关键的奖励信号[Wang et al. 2024 2025原创 2025-08-03 10:54:39 · 14 阅读 · 0 评论 -
Reinforcing General Reasoning without Verifiers
DeepSeek-R1-Zero [10] 最近展示了使用可验证奖励的强化学习(RL)训练大型语言模型(LLMs)可以极大地提高推理能力。在这个可验证奖励的强化学习(RLVR)框架 [17] 中,LLM 生成一个推理过程(即,思维链,CoT),然后给出最终答案。一个基于规则的程序随后提取并评估最终答案,如果最终答案是正确的,则将奖励1分配给响应,否则为0。该模型使用 GRPO [37] 进行 RL 训练——这是 PPO [36] 的一种简化变体。原创 2025-08-02 10:28:16 · 28 阅读 · 0 评论 -
Mixture-of-Recursions: Learning Dynamic RecursiveDepths for Adaptive Token-Level Computation
将Transformer网络扩展到数千亿参数已经解锁了令人印象深刻的少样本泛化和推理能力(Brown等,2020;Chowdhery等,2023;Llama团队,2024;Gemini团队,2024;Gemini团队,2025)。然而,伴随而来的内存占用和计算需求使得在超大规模数据中心之外进行训练和部署变得具有挑战性(Patterson等,2021;Momenti等,2024)。这促使研究人员寻求替代的“高效”设计(Tay等,2022;Wan等,2023)。原创 2025-07-31 11:35:40 · 9 阅读 · 0 评论 -
BEYOND BINARY REWARDS: TRAINING LMS TOREASON ABOUT THEIR UNCERTAINTY
GPQA(Rein et al., 2024)、Math500(Hendrycks et al., 2021)、GSM8K(Cobbe et al., 2021)和Big-Math(Albalak et al., 2025)评估了在复杂、多步骤或科学推理中的校准,其中不确定性在多个步骤中累积。为了在这一领域定位我们提出的RLCR方法,我们调查了LLMs中置信度估计的四种趋势:(i)事后验证,(ii)基于采样的替代方案,(iii)内部信号探测,以及(iv)基于RL的校准。原创 2025-07-29 11:17:41 · 25 阅读 · 0 评论 -
Binary Classifier Optimization for Large Language Model Alignment
在生产环境中部署大型语言模型(LLMs)时,对齐LLMs一直是一个关键因素,因为预训练的LLMs容易产生不良输出。Ouyang等人(2022)引入了基于人类反馈的强化学习(RLHF),该方法涉及基于单个提示的各种完成及其比较来训练奖励模型,然后优化LLM以最大化这些奖励。随后,直接偏好优化(DPO)(Rafailo et al., 2023)被提出作为一种替代方案,它通过直接基于选择和拒绝的完成之间的偏好来优化模型,从而避免了训练奖励模型的需要。原创 2025-07-28 10:53:21 · 278 阅读 · 0 评论 -
RM-R1: Reward Modeling as Reasoning
奖励模型(RMs)在大型语言模型(LLM)的后训练中扮演着关键角色,特别是在具有人类反馈的强化学习(RLHF)中,它们作为人类评估者的可扩展代理。(1)基于标量的奖励模型(ScalarRM)和(2)生成式奖励模型(GenRM)。基于标量的方法将奖励建模视为分类问题,通常在语言模型的基础上训练一个序列分类器。相比之下,生成式方法保留原始的语言模型解码头,并利用模型的生成能力来产生自由形式的成对判断。虽然基于标量的方法直接且通常有效,但它们是不透明的,不提供中间推理步骤来证明模型的决策。原创 2025-07-26 09:49:16 · 29 阅读 · 0 评论 -
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals
最近,大型视觉-语言模型(LVLMs)因其能够将语言模型(LLMs)的对话能力扩展到多模态领域而受到欢迎。具体来说,LVLMs可以根据文本提示和图像进行条件生成,使用户能够就视觉输入提出问题并进行对话。这些能力在最近引入的模型中得到了普及,例如GPT-4 Vision和LLAVA。虽然这些LVLMs展示了令人印象深刻的能力,但一个关键问题仍然存在,即它们在多大程度上可能具有有害的社会偏见。先前的研究已经广泛调查了语言模型中的社会偏见。原创 2025-07-25 09:48:11 · 64 阅读 · 0 评论 -
Gradient-Adaptive Policy Optimization:Towards Multi-Objective Alignment of Large Language Models
大型语言模型(LLMs)(Anthropic, 2023;OpenAI, 2024)已经在广泛的实际应用中展示了显著的能力(Bubeck et al., 2023),包括内容创作(Yuan et al., 2022)、编程辅助(Chen et al., 2021;Gao et al., 2023)和数学推理(Wei et al., 2022)。随着LLMs在日常AI系统中的日益整合,确保它们与人类偏好(如有帮助、无害和诚实)的一致性已成为一个关键挑战。原创 2025-07-24 10:07:31 · 32 阅读 · 0 评论 -
A Practical Examination of AI-Generated Text Detectors for LargeLanguage Models
我们使用了 MTG 摘要数据集(Chen 等,2022)进行此任务。完整的多语言数据集包含大约 200k 个摘要。我们使用了英语、西班牙语、法语和中文子集。原创 2025-07-23 10:47:51 · 21 阅读 · 0 评论 -
REASONING ELICITATION IN LANGUAGE MODELSVIA COUNTERFACTUAL FEEDBACK
大型语言模型(LLMs)已被证明能够在各个领域执行众多任务并表现出色。示例包括写作助手(Gan 等人,2023)、社交媒体情感分析(Simmering 和 Huovila,2023),甚至在医疗保健中的应用(González 等人,2023;Wong 等人,2023)。尽管这些系统的准确性不断提高,但目前仍不清楚这种准确性在多大程度上是由于其训练数据的有效回忆,还是由于其通过提取、理解和适应训练数据中的基本概念而真正具备推理能力(Huang 和 Chang,2023;Li 等人,2023)。原创 2025-07-22 11:34:22 · 47 阅读 · 0 评论 -
Implicit Reward as the Bridge: A Unified View of SFTand DPO Connections
后训练是将大型语言模型(LLMs)应用于现实世界中的关键阶段。在从众多预训练语料库中积累了一般先验知识之后,后训练旨在利用LLMs的潜力以满足不同需求,例如遵循自然语言指令[1, 2, 3, 4, 5]。在后训练领域中,偏好信号已成为特别有价值的反馈形式,吸引了大量的研究关注[11, 1]。尽管这种顺序范式被广泛采用,但在理论视角下,这两种方法如何根本性地相互关联仍然存在显著差距。原创 2025-07-21 20:02:03 · 240 阅读 · 0 评论 -
RECALL :Library-Like Behavior In Language Models is Enhancedby Self-Referencing Causal Cycles
通过类比,可以将大型语言模型(LLM)视为一个物理知识库的参数等价物(Lederman 和 Mahowald,2024)。图书馆让人联想到结构化的书籍或文档集合,每个都编目以便于高效检索。类似地,通过数十亿个标记对LLM进行预训练,将它们转化为编码知识的存储库(Petroni 等,2019;Heinzerling 和 Inui,2020;Wang 等,2024)。因此,提示词充当交叉引用,指导检索特定信息,就像图书馆索引有助于在书架上找到书籍一样。在图书馆中,我们期望可靠地检索信息。原创 2025-07-20 10:58:11 · 23 阅读 · 0 评论 -
Asymmetric REINFORCE for off-PolicyReinforcement Learning:Balancing positive and negative rewards
强化学习(RL)长期以来一直被应用于通过人类反馈(Christiano 等,2017;Ouyang 等,2022;Dubey 等,2024)来调整大型语言模型(LLMs)以符合用户的偏好;最近,它还被用于以更通用的方式增强模型,特别是开发它们的推理、编码和工具使用能力(Shao 等,2024;Guo 等,2025;Meta,2025;由于RL理论上允许模型超越现有训练数据的限制(参见例如 Silver 等(2016);原创 2025-07-19 10:17:17 · 22 阅读 · 0 评论 -
Com2: A Causal-Guided Benchmark for Exploring Complex CommonsenseReasoning in Large Language Model
基于Com²,我们首先评估了广泛的现有LLMs,然后进行深入分析。原创 2025-07-17 21:09:30 · 28 阅读 · 0 评论 -
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS
将大型语言模型(LLMs)与复杂的人类价值观(如乐于助人和诚实)对齐,仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习(RLHF)[Christiano et al., 2017;这个流程严重依赖于一个奖励模型(RM),该模型经过人类偏好的训练来对模型输出进行评分,最终对齐的LLM的质量基本上由这个RM的质量决定。因此,创建一个最先进的RM以前需要构建大规模、高质量的人类偏好数据集,这显然既缓慢、昂贵又难以扩展。这种对人类标注的依赖催生了对替代对齐方法的研究。原创 2025-07-16 21:16:18 · 108 阅读 · 0 评论 -
Enhancing Input-Label Mapping in In-Context Learning withContrastive Decoding
上下文学习(ICL,Brown 等人,2020)是大型语言模型(LLMs,Achiam 等人,2023;Dubey 等人,2024)最显著的新兴能力之一。通过利用一些精心选择的输入-输出示例,ICL 使模型能够在不更新参数的情况下适应新任务(Dong 等人,2022;Peng 等人,2024)。这种方法在解锁 LLMs 的高级能力方面被证明是非常有效的,并且已经成为处理一系列任务(如翻译、编码和推理(Peng 等人,2023;Wang 等人,2025;Wilisono 和 Wang,2024))的标准技术。原创 2025-07-15 17:58:55 · 34 阅读 · 0 评论 -
Revisiting Demonstration Selection Strategies in In-Context Learning
大型语言模型(LLMs,Ouyang 等人,2022;Touvron 等人,2023)在许多自然语言处理(NLP)任务中取得了广泛的成功(Zhong 等人,2023;Peng 等人,2023;Lu 等人,2023),这归功于它们显著的涌现能力(Wei 等人,2022)。其中最令人兴奋的涌现能力之一是上下文学习(ICL,Brown 等人,2020b),它仅利用少量输入-输出示例来帮助LLMs做出更好的预测(Dong 等人,2022)。原创 2025-07-15 10:06:15 · 34 阅读 · 0 评论 -
Self-Adaptive In-Context Learning: An Information CompressionPerspective for In-Context Example Sel
随着预训练语言模型(PLMs)规模的增加,通过上下文学习(ICL),这些模型展现出了新的能力(Wei et al., 2022),其中PLMs通过仅依赖于包含几个同类示例的提示来学习执行下游任务(Brown et al., 2020a)。由于其出色的性能,ICL已成为使用PLMs的一种流行且高效的方法。然而,ICL本质上是不稳定的:给定不同的提示,ICL在下游任务上的性能可能从几乎随机到与最先进的系统相当不等(Zhao et al., 2021;Gao et al., 2021),这取决于提示的质量。原创 2025-07-13 15:52:38 · 44 阅读 · 0 评论 -
MARFT: Multi-Agent Reinforcement Fine-Tuning
大型语言模型(LLMs)正越来越多地被部署为新一代自治智能体,能够执行需要决策、推理以及与复杂和动态环境互动的智能任务(Jin等,2024;Hong等,2024;Qian等,2024)。这些基于LLM的智能体正在迅速改变人机交互,并扩展自治系统的边界。除了强大的自然语言理解和生成能力(Chowdhary,2020),LLMs还可以执行检索增强生成(RAG)(Lewis等,2021),当与外部工具或API集成时,可以在计算机和移动平台上完成更复杂的任务(Erdogan等,2024;Zhang等,2025)。原创 2025-07-11 16:42:07 · 34 阅读 · 0 评论 -
Tuning Language Models by Proxy
尽管大型预训练语言模型的通用能力越来越强,但它们仍然可以从额外的微调中受益,以更好地实现所需的行为。例如,它们通常被微调以遵循指令(Ouyang等人,2022年)、特定的兴趣领域(Gururangan等人,2020年)或特定任务(Raffel等人,2020年)。然而,微调这些模型变得越来越资源密集,或者在模型权重是私有的情况下变得不可能(例如,GPT-4;OpenAI,2023年)。因此,如何有效地为不同用户和应用定制越来越大的语言模型仍然是一个挑战。原创 2025-07-06 16:25:12 · 88 阅读 · 0 评论 -
BPO: Towards Balanced Preference Optimization between KnowledgeBreadth and Depth in Alignment
带人类反馈的强化学习(Reinforcement Learning with Human Feedback,简称 RLHF)(Christiano 等,2017)在近年来大型语言模型(LLMs)的成功中发挥了关键作用。其目标是在大型语言模型的后训练阶段,通过利用大量人类标注者的成对反馈,使其与人类的价值观和偏好相一致。另一研究方向则从数据角度出发,旨在提升一致性过程。原创 2025-07-04 11:55:54 · 30 阅读 · 0 评论 -
EPO: Hierarchical LLM Agents with Environment PreferenceOptimization
长期决策和规划任务依然是基于大型语言模型(LLM)的智能体面临的一大挑战(Valmeekam 等,2023;Liu 等,2023;Silver 等,2024)。这些任务需要智能体进行多步骤的规划,同时保持行为的一致性和目标导向,这对于通常被设计用于即时和局部预测的大型语言模型来说颇为困难。此外,针对具身智能体的大型语言模型微调面临的一个关键难题是大规模标注数据的需求(Reed 等,2022)。原创 2025-07-04 11:06:58 · 43 阅读 · 0 评论 -
Plan-Grounded Large Language Models forDual Goal Conversational Settings
引导用户完成诸如烹饪或 DIY 之类的手动任务(Choi 等,2022),对于当前的大型语言模型(LLMs)来说是一个新颖且具有挑战性的领域。该问题之所以棘手,是因为现有的大型语言模型仅接受过遵循用户指令的训练,而在这一新场景下,指令会在对话的双方之间流动。(i)遵循一系列步骤计划,以及(ii)回答用户提出的各种指令。为应对这些联合目标,大型语言模型需要在程序性计划的背景下,同时与计划对齐并遵循用户指令,如图 1 所示。原创 2025-07-04 10:14:30 · 413 阅读 · 0 评论 -
A Deep Dive into the Trade-Offs of Parameter-EfficientPreference Alignment Techniques
大型语言模型(LLMs)在诸如总结、常识推理和开放式生成等各项任务上取得了类似人类的性能表现(Zhao et al., 2023)。这些LLMs拥有数十亿参数,并且是在从网络抓取的数万亿token上进行预训练的。LLMs的有利用途之一是以自主代理的形式出现,让它们遵循用户指令并符合特定的偏好要求(Wang et al., 2023a)。然而,预训练模型往往无法遵循指令,需要使用特别编排的偏好对齐数据集和方法来进行对齐,以实现泛化(Mishra et al., 2021)。原创 2025-07-03 10:16:45 · 23 阅读 · 0 评论 -
Instantly Learning Preference Alignment via In-context DPO
在大型语言模型(LLM)行业中,人类偏好对齐(HPA)至关重要,因为它可以防止LLM生成与人类价值观相悖的内容。目前,HPA的主流方法主要依赖于微调,例如RLHF(Stiennon等人,2020;Ouyang等人,2022;Zhu等人,2023)、RAFT(Dong等人,2023a)、RRHF(Yuan等人,2023)或DPO(Rafailov等人,2023)。然而,微调的巨大计算和标注成本不容忽视。因此,采用外部监督解码的无调参方法越来越受欢迎。原创 2025-07-02 10:12:46 · 26 阅读 · 0 评论 -
TTRL:Test-Time Reinforcement Learning
因此,策略模型自身估计的奖励信号可能为学习提供了更合适的指导。图 9:“幸运命中”的一个案例。我们展示了一个基本的数值预测场景,以比较在两种条件下奖励计算:当估计的标签不正确时与使用真实标签时。如图 9 所示,尽管估计的标签不正确,但一些错误预测仍然与错误标签不同,因此收到了正确的奖励(表示为 0)。原创 2025-06-30 11:32:33 · 244 阅读 · 0 评论 -
OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and
基于这些特点,OmniDrive 在架构设计上做出了更优的选择。原创 2025-06-29 12:18:58 · 56 阅读 · 0 评论 -
Critique-GRPO: Advancing LLM Reasoning withNatural Language and Numerical Feedback
强化学习(RL)一直是提升大型语言模型(LLMs)推理能力近期发展的关键驱动力。特别是具有数值反馈(通常是标量奖励形式)的强化学习,即R1-Zero训练范式,使基础大型语言模型能够通过反复试错从自身的生成结果中学习。高质量的生成结果会得到正面奖励,而低质量的生成结果则会被惩罚。这种范式革新了大型语言模型的后训练流程,从模仿专家示范的模仿学习转变为从模型自身的生成结果(即经验)中学习,从而显著提升了性能。(i)性能停滞:将训练样本数量扩大8倍(从4k增加到32k)无法提升峰值性能。原创 2025-06-29 10:37:38 · 37 阅读 · 0 评论 -
Test-Time Preference Optimization:On-the-Fly Alignment via Iterative Textual Feedback
大型语言模型(OpenAI,2023;Dubey 等,2024;Jiang 等,2024;Zhu 等,2024;Qwen 等,2025)在一系列下游任务中展现出令人印象深刻的性能。然而,由于这些模型是基于大量未标注文本进行训练的,如果不进行适当的对齐,它们可能会偶尔生成意外或不安全的回应。因此,许多方法旨在将大型语言模型与人类偏好对齐,以确保其输出既有助又有用。原创 2025-06-28 15:57:27 · 42 阅读 · 0 评论 -
DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
场景描述(E):由天气状况(E_weather)、时间(E_time)、道路状况(E_road)和车道状况(E_lane)组成。场景分析(S):涵盖对象级分析和场景级总结。元动作(A):代表任务级操作的动作序列。决策描述(D):对驾驶决策的详细说明。轨迹航点(W):勾勒出自车规划轨迹的航点。原创 2025-06-25 20:21:27 · 42 阅读 · 0 评论 -
大模型强化微调GRPO——DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models
英语和中文数学推理:我们对模型在英语和中文基准测试上进行了全面评估,涵盖从小学水平到大学水平的数学问题。英语基准测试包括 GSM8K(Cobbe 等,2021 年)、MATH(Hendrycks 等,2021 年)、SAT(Azerbayev 等,2023 年)、OCW 课程(Lewkowycz 等,2022 年)、MMLU-STEM(Hendrycks 等,2020 年)。原创 2025-06-24 14:54:54 · 217 阅读 · 0 评论 -
ELM:Embodied Understanding of Driving Scenarios
ELM 的核心在于 “具身理解”(Embodied Understanding),即通过常识与环境交互并进行推理,这一理念适用于自动驾驶车辆、机器人和无人机等多种应用场景。具身智能体(Embodied Agent)需具备四大核心能力:首先,它能够描述周围环境,对交通物体的属性、存在状态和运动情况进行准确刻画;其次,不仅能评估大致位置,还能在三维空间中精确定位特定物体,实现高精度的空间定位;再者,需要检索已发生的特定事件,具备强大的记忆能力;最后,能够根据给定的历史信息预测未来,为决策提供依据。原创 2025-06-17 20:48:20 · 45 阅读 · 0 评论 -
Causal-aware Large Language Models: Enhancing Decision-Making ThroughLearning, Adapting and Acting
随着像生成预训练变换模型(GPT)[Brown 等,2020] 和大型语言模型Meta AI(LLAMA)[Touvron 等,2023] 这样的大型语言模型(LLMs)的进步,这些模型在决策领域展现出了巨大的潜力 [Sun 等,2023;Yao 等,2023]。然而,这些预训练模型的主要任务是基于现有数据预测下一个词,这限制了它们在结构化推理和适应新环境方面的能力。这些限制阻碍了它们在现实世界中复杂决策任务中的有效性。因此,如何有效利用大型语言模型的能力来解决复杂任务仍然是一个持续的研究问题。原创 2025-06-17 10:56:05 · 41 阅读 · 0 评论 -
DriveLM: Driving with Graph Visual Question Answering代码实战
在感知阶段,核心问题包括当前场景中的重要物体有哪些、物体 X 的运动状态如何以及物体 X 的视觉描述等,这些问题旨在全面理解场景中的物体信息。预测阶段关注物体 X 的未来状态、物体 X 是否会出现在自车的行驶方向上,以及自车到达下一个可能位置时应首先 / 其次 / 第三注意哪些物体,以实现对环境变化的预判。规划阶段则聚焦于基于物体 X 的观察自车可采取哪些动作、自车哪些动作会导致与物体 X 碰撞,以及在该场景下自车的安全动作是什么,从而生成合理的驾驶决策。对于自车应注意物体的顺序问题,按匹配情况计算得分。原创 2025-06-16 17:42:30 · 251 阅读 · 0 评论 -
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model
在控制信号预测任务中,DriveGPT4 的速度预测均方根误差(RMSE)为 1.30,转向角度 RMSE 为 8.98,优于消融实验中的其他配置。例如,仅使用 BDD-X 数据时,速度 RMSE 为 1.69,而结合 ChatGPT 数据和混合微调后,误差进一步降低,验证了多源数据与训练策略的有效性。,传统方法无法解释智驾系统的决策过程,用户难以理解车辆行为的依据。传统语言模型(如 BERT)因缺乏灵活性、泛化性且不支持视觉模态,无法提供合适的解释。车辆行为描述 (Qa)原创 2025-06-09 22:08:50 · 320 阅读 · 0 评论 -
Reasoning over Uncertain Text by Generative Large Language Models
文本中的不确定性在许多语境中传达,从日常对话到特定领域的文档(例如医学文档)(Heritage 2013;Landmark、Gulbrandsen 和 Sveneveig 2015)。处理这种不确定的信息至关重要。例如,文本中的不确定性已被证明显著影响生物医学领域的决策(Poggi 等,2019)。在不确定文本中进行推理也与理性推理密切相关,例如,如果事件 A 和 B 的概率较低,则这两者同时发生的概率应该也较低。因此,语言模型必须能够处理具有不确定性的文本,并基于此执行推理。原创 2025-06-08 10:24:56 · 230 阅读 · 0 评论 -
KTO: Model Alignment as Prospect Theoretic Optimization
本报告介绍了一种基于前景理论(Prospect Theory)的大型语言模型对齐方法 ——KTO(Kahneman-Tversky Optimization)。该方法通过设计人类感知损失函数(HALO),直接最大化模型生成的效用,而非依赖人类偏好数据的对数似然,旨在解决现有对齐方法(如 PPO、DPO)依赖高成本偏好数据的局限性。报告将从 KTO 的创新思路、理论基础、原理、核心代码、性能对比及消融实验等方面展开详细阐述。原创 2025-06-07 21:19:11 · 220 阅读 · 0 评论 -
DPO算法微调实战
步骤描述1. 数据准备输入 prompt,带有 chosen 和 rejected 两个回答2. 模型前向获取策略模型和参考模型在这两个回答上的 log 概率3. 计算目标函数用对比对数比构造 sigmoid 损失函数4. 反向传播只更新策略模型的参数,参考模型保持冻结微调运行过程:通过网盘分享的文件:大模型链接: https://pan.baidu.com/s/1kZNFLPNevEKQnLGzhcDmrg?pwd=gfw7 提取码: gfw7。原创 2025-06-04 22:59:10 · 721 阅读 · 0 评论 -
DPO 算法
传统的 RLHF 通过奖励模型和 KL 散度约束来优化策略,而 DPO 直接利用偏好数据进行最大似然优化,避免了复杂的强化学习过程和奖励模型的显式训练,简化了流程,提高了效率。该模型有以下基本假设:每个项目或实体都有一个潜在的能力值,这个值反映了该项目在与其他项目比较时获胜的概率。Bradley - Terry 模型是一种用于比较和排序多个项目或实体的统计模型。它最初由 Ralph Bradley 和 Milton Terry 在 1952 年提出,主要用于体育比赛中的胜负预测。原创 2025-06-03 22:11:35 · 204 阅读 · 0 评论