【VLA&VLM——OpenVLA】

总览

这是开启VLA&VLM学习的第一篇论文记录,这个系列主要用于记录一些经典的VLA&VLM方法和对应的思考。持续思考持续提升。其实开始做VLM已经有几个月的时间了,但是没有系统的了解过整个VLM&VLA的框架和知识。
【paper】https://arxiv.org/pdf/2406.09246
【code】

主要创新

  1. 指出之前VLA模型的主要问题:1)大多是闭源模型;2)可迁移性差,适配一个新的机型/任务,需要完全重新训练;
  2. 提出了一个开源的7B VLA模型-OpenVLA,性能超越之前闭源RT-2-X,并且具备泛化迁移能力;
  3. 探究了一系列VLA模型结构、训练方式的配置细节,部分得到的结论和先前常识不太一样;

模型结构

  1. Vision Enc(600M):单帧图像分别过DinoV2和SigLIP后,Channel-wise进行concat。之所以用两个Enc,是作者经过实验发现这样(增加DINOv2)对于spatial reasoning能力有明显提升;
  2. Projector:2层MLP,对其vision&language特征空间;
  3. LLM(7B):Llama-7B
  4. VLM pretrain:整体基于LlaVA 1.5 data mixture进行finetune,作为pretrain model
  5. Action Decoder:将训练数据中1%-99%的动作,离散化成256个meta action。然后通过这256个离散动作控制机器人。这里面注意,Llama做SFT只支持最多100个新special token,所以需要把利用最少的256个special token给覆盖掉,供Action Decoder使用。
    在这里插入图片描述

训练数据

  1. Open X-Embodiment dataset:2M robot trajectories,70 individual robot datasets;
  2. 输入、输出空间一致性:只保留第三视角相机单机械臂操作的数据;
  3. 数据均衡:embodiments、tasks、scenes均衡;

训练设计

  1. VLM Backbone:尝试了Prismatic(DINOv2+SIGLP+Llama)、Llava、IDEFICS等VLM模型,Prismatic效果最佳。作者将其归功于双vision encoder的结构,提升了机器的定位能力;
  2. Image Resolution:尝试里224224和384384分辨率,发现效果无差别。这里就比较反常识了,之前的VLA和VLM任务一般来讲都是分辨率高对效果有提升,当然计算成本也随之提高;
  3. Funtune Vision Enc:一般的VLA都将这部分freeze住,这里解开训练发现效果出奇的好,可以看后面的ablation实验;
  4. Epoch:最终训了27epoch,一般的任务都不会训这么多;
  5. LR:2e-5,于VLM pretrain阶段保持一致,和warmup没有明显提升;

实验

  1. 多机器平台效果:
    在这里插入图片描述
    在这里插入图片描述
  2. 适应新任务效果
    在这里插入图片描述
  3. SFT提效
    这里可以看到LoRA和全参数训练性能比较接近,消耗资源少了很多;
    在这里插入图片描述
  4. 量化效果
    在这里插入图片描述

思考

作者

  1. 传感器是单相机,使用比较有限。这个在目前自动驾驶的VLM中也有类似的问题。没有释放更多传感器能力;类似还有时序能力;
  2. 频率还是比较低,推理速度。未引入action chunk等类似的技术优化模型推理效果;
  3. 整体动作成功率还比较低,single object成功率在50-60%附近;
  4. 有一些结构上的内容还没有探究:VLM的尺寸(7B)对VLA效果的关系?robo-action的SFT和Internet Scale数据的混合训练能否提升效果?(post-pretrain)?Vision Feature与VLA的适配关系?

笔者

  1. 离散化的Meta Action作为输出,会不会影响动作的流畅性?如果类比Anchor做一些补偿会不会好一些?(当然这个可能比较细枝末节了)
<think>嗯,用户让我介绍一下VLA和VLM,这两个都是计算机视觉和自然语言处理结合领域的重要模型。首先,我需要确认这两个缩写的全称是什么。VLA应该是Vision-Language-Action,而VLM是Vision-Language Model。对吗?可能用户对这两个概念有点混淆,或者想了解它们之间的关系和区别。 接下来,我需要回忆这两个模型的基本定义和应用场景。VLM,也就是视觉语言模型,主要用于理解和生成与图像相关的文本,比如图像描述、视觉问答等。而VLA,视觉语言动作模型,可能更侧重于将视觉和语言信息结合到具体的动作或决策中,比如机器人控制、自动驾驶等需要根据视觉和语言指令执行动作的场景。 用户可能想知道它们各自的特点、应用以及区别。可能需要先分别介绍每个模型,再比较它们的异同点。比如,VLM专注于感知层面,处理视觉和语言的交互,而VLA则在感知的基础上增加了执行动作的能力,属于更复杂的系统。 还要注意用户的需求是否涉及技术细节,比如模型结构、训练方法等。不过用户只是要求介绍,可能需要保持解释的简明易懂,避免过于专业的术语,但又要准确。比如,VLM可能使用Transformer架构,通过多模态融合处理图像和文本;而VLA可能在VLM基础上加入强化学习或动作预测模块。 需要确认是否有最新的研究成果或典型模型,比如VLM中的CLIP、Flamingo,VLA中的Gato、RT-2等。举例说明可以帮助用户理解。 另外,用户可能对两者的应用场景感兴趣。比如VLM用于图像搜索、自动标注,VLA用于机器人执行复杂任务。需要明确两者的不同应用方向。 最后,总结两者的联系与区别,强调VLA在VLM的基础上增加了动作执行的能力,形成感知-决策-执行的闭环。这样用户就能清晰理解两者的定位和关系。</think>### **VLA(Vision-Language-Action)与 VLM(Vision-Language Model)介绍** #### **1. VLM(视觉语言模型)** - **定义**: VLM 是一种结合 **视觉(图像/视频)** 与 **语言(文本)** 的多模态模型,能够理解图像内容并生成相关文本描述,或根据文本指令分析视觉信息。 - **核心能力**: - **跨模态对齐**:将图像特征与文本语义关联(例如:识别图像中的狗并生成“一只金毛犬在草地上奔跑”)。 - **任务场景**: - **图像描述生成**(Image Captioning) - **视觉问答**(VQA,如“图片中有几只猫?”) - **图文检索**(用文字搜索图片,或用图片搜索文字) - **典型模型**: - **CLIP**(OpenAI):通过对比学习对齐图像和文本特征。 - **Flamingo**(DeepMind):支持多轮对话的视觉语言模型。 - **BLIP-2**:结合预训练视觉编码器与大语言模型(如 GPT)。 --- #### **2. VLA(视觉语言动作模型)** - **定义**: VLA 在 VLM 的基础上增加了 **动作决策与控制** 能力,形成“感知-理解-决策-执行”的闭环系统,直接将视觉和语言输入映射到物理动作。 - **核心能力**: - **多模态推理**:结合视觉、语言和环境状态,规划动作(例如:根据指令“拿起红色积木”控制机器人手臂)。 - **任务场景**: - **机器人操作**(如家庭服务机器人) - **自动驾驶**(根据路况和导航指令调整车速) - **具身智能**(智能体在虚拟/真实环境中交互) - **典型模型**: - **RT-2**(Google DeepMind):将视觉语言模型与机器人动作策略结合,实现泛化操作能力。 - **Gato**(DeepMind):通用多模态模型,可处理文本、图像、动作序列。 --- #### **3. 核心区别** | **维度** | **VLM** | **VLA** | |----------------|----------------------------------|----------------------------------| | **目标** | 理解视觉与语言的关系 | 将感知转化为物理动作 | | **输出** | 文本或跨模态特征 | 控制指令(如机械臂轨迹、车速) | | **应用场景** | 图像分析、内容生成 | 机器人、自动驾驶、交互式系统 | | **技术挑战** | 跨模态对齐、生成一致性 | 动作安全性、环境实时响应 | --- #### **4. 联系与趋势** - **VLA 依赖 VLM 的基础能力**:VLA 通常以 VLM 为感知层,通过强化学习或动作预测模块扩展决策能力。 - **发展方向**: - **端到端训练**:从原始输入(图像+文本)直接输出动作,减少模块分割。 - **通用智能体**:构建能适应多任务、多场景的“全能型”VLA 系统(如具身通用人工智能)。 若需进一步了解具体模型或技术细节,可随时提出! 🚀
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值