CVPR冠军方案BridgeVLA | 真机性能提升32%,3D VLA新范式!

击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

3D视觉工坊很荣幸邀请到了中科院自动化所在读博士李沛言,为大家着重分享他们团队的工作:BridgeVLA。如果您有相关工作需要分享,欢迎文末联系我们。

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
论文https://arxiv.org/pdf/2506.07961
主页https://bridgevla.github.io/home_page.html
代码https://github.com/BridgeVLA/BridgeVLA
数据集https://huggingface.co/datasets/LPY/BridgeVLA/tree/main

直播信息

时间

2025年07月31日(周四)19:00

主题

CVPR冠军方案BridgeVLA | 真机性能提升32%,3D VLA新范式!

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

李沛言
中科院自动化所博士二年级在读

中科院自动化所博士二年级在读,师从谭铁牛院士。本科就读于西安交通大学人工智能拔尖人才实验班,专业第一,曾获人民日报优秀国奖学生代表(西安交大当年唯一入选本科生),旷视科技全面发展奖学金等荣誉。博士期间曾在Tencent Robotics X,Bytedance Seed等顶级机构从事具身智能相关的前沿研究,目前的研究方向为具身智能,通用机器人操作等,其已在ICCV,ICML,RA-L等国际会议或期刊上发表多篇论文。

个人主页: https://github.com/LPY1219

直播大纲

2D VLA泛化性很好,但动辄却要上百条数据;3D Manipulation Policy仅需10条轨迹就可以work,但却很难泛化到未见过的场景。所以,是否能设计一个结合二者优点的3D VLA,同时做到efficient和effective?事实上,如果只是简单地复用VLM的预训练权重,并不能构造出我们期待的3D VLA模型。根本原因在于VLM的输入输出和所需的3D VLA的输入输出之间存在着巨大Gap,导致我们无法将VLM的潜力充分发挥出来,而BridgeVLA的提出就是为了Bridge the gap。

  1. 为什么要研究3D VLA?

  2. 当前的3D VLA架构有着怎样的问题?

  3. BridgeVLA的网络架构、实验结果、真机展示。

  4. 未来工作

参与方式

:3D视觉工坊很荣幸邀请到了中科院自动化所在读博士李沛言,为大家着重分享他们团队的工作:BridgeVLA。如果您有相关工作需要分享,欢迎联系微信:cv3d009 请备注:宣传工作,则不予通过。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值