CVPR冠军方案BridgeVLA | 真机性能提升32%，3D VLA新范式！-CSDN博客

击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

3D视觉工坊很荣幸邀请到了中科院自动化所在读博士李沛言，为大家着重分享他们团队的工作：BridgeVLA。如果您有相关工作需要分享，欢迎文末联系我们。

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
论文：https://arxiv.org/pdf/2506.07961
主页：https://bridgevla.github.io/home_page.html
代码：https://github.com/BridgeVLA/BridgeVLA
数据集：https://huggingface.co/datasets/LPY/BridgeVLA/tree/main

直播信息

时间

2025年07月31日(周四)19：00

主题

CVPR冠军方案BridgeVLA | 真机性能提升32%，3D VLA新范式！

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

李沛言
中科院自动化所博士二年级在读

中科院自动化所博士二年级在读，师从谭铁牛院士。本科就读于西安交通大学人工智能拔尖人才实验班，专业第一，曾获人民日报优秀国奖学生代表(西安交大当年唯一入选本科生)，旷视科技全面发展奖学金等荣誉。博士期间曾在Tencent Robotics X，Bytedance Seed等顶级机构从事具身智能相关的前沿研究，目前的研究方向为具身智能，通用机器人操作等，其已在ICCV，ICML，RA-L等国际会议或期刊上发表多篇论文。

个人主页： https://github.com/LPY1219

直播大纲

2D VLA泛化性很好，但动辄却要上百条数据；3D Manipulation Policy仅需10条轨迹就可以work，但却很难泛化到未见过的场景。所以，是否能设计一个结合二者优点的3D VLA，同时做到efficient和effective？事实上，如果只是简单地复用VLM的预训练权重，并不能构造出我们期待的3D VLA模型。根本原因在于VLM的输入输出和所需的3D VLA的输入输出之间存在着巨大Gap，导致我们无法将VLM的潜力充分发挥出来，而BridgeVLA的提出就是为了Bridge the gap。