Video Prediction Policy(VPP)提出了一个创新性框架来解决具身智能中的通用操作策略学习问题。该方法采用两阶段训练范式:第一阶段通过构建多模态视频扩散模型(Video Diffusion Models, VDMs),在混合的人类操作数据集与机器人操作数据集上进行跨域预训练,建立具有时空推理能力的视频预测基础模型;第二阶段创新性地将 VDMs 输出的隐空间表征作为感知特征,通过策略蒸馏技术训练 Diffusion Policy,最终实现跨任务、跨平台的操作策略迁移。这种将视频生成模型与决策模型解耦的架构设计,在保持视觉表征丰富性的同时,显著提升了策略模型的样本效率和泛化能力。
传统视觉表征学习方法(如基于对比学习的SimCLR、MoCo等)通常采用静态帧重建或双帧时序建模作为预训练目标,单/双帧输入难以构建连续状态演变的完整观测空间,导致编码器无法建立动作-状态变化的因果关联。VPP创新性地引入视频生成模型作为 vision encoder,输入一帧
H
∗
W
H*W
H∗W是当前图片,输出 (T-1) 个
H
∗
M
H*M
H∗M的对未来 T-1 时间步的预测图片(视频)。
基于1.5B参数的预训练 Stable Video Diffusion (SVD) 基座模型进行改进,利用 cross-attention 将CLIP 语言特征结合,并调整输出为
256
∗
256
256*256
256∗256 的 16 帧视频。
对于 Action Learning,将 TVP 的单步预测视作 Vison Encoder,然后将此作为 Action Diffusion Policy 的 condition。
由于 TVP 的特征仍然是高维的,故采用一个 Video Former,初始化一组可学习的 token
Q
[
0
:
T
,
0
:
L
]
Q_{[0:T,0:L]}
Q[0:T,0:L]
Q
′
=
{
S
p
a
t
−
A
t
t
n
(
Q
[
i
]
,
(
F
m
s
t
a
t
i
c
[
i
]
,
F
m
w
r
i
s
t
[
i
]
)
)
}
i
=
0
T
Q
′
′
=
FFN(Temp-Attn
(
Q
′
)
)
\begin{aligned} &Q^{\prime}=\{\mathrm{Spat-Attn}(Q[i],(F_m^{static}[i],F_m^{wrist}[i]))\}_{i=0}^T \\&Q^{\prime\prime}=\text{FFN(Temp-Attn}(Q^{\prime})) \end{aligned}
Q′={Spat−Attn(Q[i],(Fmstatic[i],Fmwrist[i]))}i=0TQ′′=FFN(Temp-Attn(Q′))
然后利用 cross-attention 将
Q
′
′
Q^{''}
Q′′ 集成到 DP 中,由此来生成动作序列
a
0
a_0
a0。