论文阅读笔记——Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

VPP 论文

Video Prediction Policy(VPP)提出了一个创新性框架来解决具身智能中的通用操作策略学习问题。该方法采用两阶段训练范式:第一阶段通过构建多模态视频扩散模型(Video Diffusion Models, VDMs),在混合的人类操作数据集与机器人操作数据集上进行跨域预训练,建立具有时空推理能力的视频预测基础模型;第二阶段创新性地将 VDMs 输出的隐空间表征作为感知特征,通过策略蒸馏技术训练 Diffusion Policy,最终实现跨任务、跨平台的操作策略迁移。这种将视频生成模型与决策模型解耦的架构设计,在保持视觉表征丰富性的同时,显著提升了策略模型的样本效率和泛化能力。

在这里插入图片描述
传统视觉表征学习方法(如基于对比学习的SimCLR、MoCo等)通常采用静态帧重建或双帧时序建模作为预训练目标,单/双帧输入难以构建连续状态演变的完整观测空间,导致编码器无法建立动作-状态变化的因果关联。VPP创新性地引入视频生成模型作为 vision encoder,输入一帧 H ∗ W H*W HW是当前图片,输出 (T-1) 个 H ∗ M H*M HM的对未来 T-1 时间步的预测图片(视频)。
在这里插入图片描述
基于1.5B参数的预训练 Stable Video Diffusion (SVD) 基座模型进行改进,利用 cross-attention 将CLIP 语言特征结合,并调整输出为 256 ∗ 256 256*256 256256 的 16 帧视频。
对于 Action Learning,将 TVP 的单步预测视作 Vison Encoder,然后将此作为 Action Diffusion Policy 的 condition。
在这里插入图片描述
由于 TVP 的特征仍然是高维的,故采用一个 Video Former,初始化一组可学习的 token Q [ 0 : T , 0 : L ] Q_{[0:T,0:L]} Q[0:T,0:L]

Q ′ = { S p a t − A t t n ( Q [ i ] , ( F m s t a t i c [ i ] , F m w r i s t [ i ] ) ) } i = 0 T Q ′ ′ = FFN(Temp-Attn ( Q ′ ) ) \begin{aligned} &Q^{\prime}=\{\mathrm{Spat-Attn}(Q[i],(F_m^{static}[i],F_m^{wrist}[i]))\}_{i=0}^T \\&Q^{\prime\prime}=\text{FFN(Temp-Attn}(Q^{\prime})) \end{aligned} Q={SpatAttn(Q[i],(Fmstatic[i],Fmwrist[i]))}i=0TQ′′=FFN(Temp-Attn(Q))
然后利用 cross-attention 将 Q ′ ′ Q^{''} Q′′ 集成到 DP 中,由此来生成动作序列 a 0 a_0 a0

性能表现

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值