R1-Omni

hr_net

已于 2025-05-09 16:31:14 修改

阅读量349

点赞数 5

CC 4.0 BY-SA版权

分类专栏：大模型文章标签：人工智能

于 2025-05-09 16:24:26 首次发布

4 篇文章

订阅专栏

一、Omni概述

Omni = 文本+视频+音频，全模态。

R1+Omni = 强化学习+全模态。

humanOmni：以人体姿态和人物交互为中心的全模态模型。

冷启动 + Reinforcement Learning with Verifiable Reward (RLVR)

冷启动：少量（带COT）样本的sft。为了确保强化学习训练（RLVR）的稳定性，R1-Omni采用了一种冷启动（Cold Start）策略，旨在通过少量标注数据为模型赋予初步的推理能力。
可验证奖励的强化学习RLVR+组相对策略优化GRPO：与传统的基于人类反馈的强化学习（RLHF）不同，RLVR通过直接利用验证函数来评估输出，从而消除了中间奖励建模的需求。RLVR的核心在于简化奖励机制，同时确保与任务的内在正确性标准保持一致。
- reward 函数：格式+正确性，总奖励公式为：R=Racc+Rformat
- 准确率奖励（RaccRacc：若情感标签与真实值一致，奖励为1，否则为0。
- 格式奖励（RformatRformat：若输出严格符合<think>和<answer>标签格式，奖励为1，否则为0。
组相对策略优化（GRPO）
与传统方法如近端策略优化（PPO）不同。GRPO通过直接比较生成的响应组来评估候选策略的相对质量，从而简化了训练过程。

具体来说，GRPO首先为给定输入问题q生成G个不同的响应{o1,o2,…,oG}，然后根据预定义的奖励函数评估这些响应的奖励{r1,r2,…,rG}。为了确定每个响应的相对质量，GRPO通过计算均值和标准差来归一化奖励。