论文地址:https://arxiv.org/pdf/2506.08009
发表时间:2025年6月9日
项目地址:https://self-forcing.github.io/
github地址:https://github.com/guandeh17/Self-Forcing
我们提出了一种用于自回归视频扩散模型的新型训练范式——自强制(Self Forcing)。该方法解决了长期存在的“暴露偏差”问题:在训练时模型基于真实上下文帧
进行学习,但在推理阶段却必须基于自身生成的不完美输出来生成序列
。与以往那些基于真实上下文帧对未来帧进行去噪的方法不同,自强制通过在训练过程中采用带有键值(KV)缓存的自动回归展开(autoregressive rollout),使每一帧的生成都依赖于之前自生成的输出
。这一策略使得我们能够通过视频层面的整体损失进行监督,从而直接评估整个生成序列的质量,而不仅仅依赖传统的逐帧目标函数。
为确保训练效率,我们采用了少步扩散模型,并结合随机梯度截断策略,在计算成本和性能之间实现有效平衡。此外,我们还引入了滚动KV缓存机制,以实现高效的自回归视频外推。大量实验表明,我们的方法能够在单块GPU上实现实时流式视频生成,延迟低于一秒,同时在生成质量上媲美甚至超越那些速度慢得多且非因果的扩散模型。
1 Introduction
近年来,视频合成领域取得了巨大进展,最先进的系统如今已能够生成具有复杂时序动态的极其逼真的内容[6]。然而,这些成果通常是通过扩散变换器(Diffusion Transformers,简称DiT)[62, 83] 实现的,这类模型采用双向注意力机制同时对所有帧进行去噪。这种设计使得未来信息可以影响过去信息,并且要求一次性生成整段视频,从根本上限制了它们在实时流媒体应用中的适用性——因为在生成当前帧时,未来信息尚不可知。
相比之下,自回归(Autoregressive,简称AR)模型[17, 27, 38, 94, 104] 则以顺序方式生成视频,这种范式天然符合时序媒体的因果结构。该方法不仅显著降低了生成视频的观看延迟,还解锁了众多应用场景,包括实时交互式内容创作[9, 46]、游戏模拟[11, 61, 78, 102]以及机器人学习[42, 96, 101]。然而,由于依赖有损的矢量量化技术[79],自回归模型往往难以达到最先进视频扩散模型所实现的视觉保真度。
为了兼得二者之长,近期出现了两种技术,旨在为视频扩散模型赋予自回归生成能力:教师强制(Teacher Forcing,简称TF)[16, 28, 33, 106] 和扩散强制(Diffusion Forcing,简称DF)[8, 10, 20, 69, 73, 100]。教师强制是序列建模中一种成熟范式,其训练目标是让模型基于真实(ground-truth)标记来预测下一个标记。当应用于视频扩散时,教师强制意味着使用干净的真实上下文帧对每一帧进行去噪(见图1(a))
,属于“下一帧预测”(next-frame prediction)的策略。与之相对,扩散强制(Diffusion Forcing,DF)方法是在对每一帧独立采样不同噪声水平的视频上进行模型训练,即基于含噪的上下文帧对每一帧进行去噪(见图1(b))。这种方法确保了训练分布中涵盖了自回归推理场景——即上下文帧是干净的,而当前帧是含噪的
。然而,采用传统自回归训练(TF)或扩散强制(DF)方法训练出的模型,在进行自回归生成时常常会出现误差累积问题,从而导致随着生成过程推进视频质量逐渐下降[84, 100, 105]。
图1:AR视频扩散模型的训练范式。(a) 在教师强制(Teacher Forcing)中,模型被训练为基于前面干净的真实上下文帧来对每一帧进行去噪
。(b) 在扩散强制(Diffusion Forcing)中,模型被训练为基于前面带有不同噪声水平的上下文帧来对每一帧进行去噪
。无论是(a)还是(b),其x训练生成的输出都不属于模型在推理阶段所生成的分布。© 我们提出的自强制(Self Forcing)方法在训练过程中执行自回归自我展开(autoregressive self-rollout),即基于模型自身生成的前面上下文帧来对下一帧进行去噪
。在最终输出的视频上计算一个分布匹配损失(例如SiD、DMD、GAN),以使生成视频的分布与真实视频的分布对齐。我们的训练范式与推理过程高度一致,从而弥合了训练与测试之间的分布差异。
这一问题在更广泛的领域中被称为“暴露偏差”(exposure bias)[60, 71],即模型在训练时仅接触真实(无噪)的上下文信息,而在推理时却必须依赖自身不完美的预测结果,从而造成分布不匹配,随着生成步骤的增加,误差不断累积
。尽管一些方法尝试通过在推理阶段引入含噪上下文帧来缓解
视频扩散模型中的这一问题[8, 11, 105],但此类设计牺牲了时间一致性,增加了键值缓存(KV-cache)设计的复杂度,提升了生成延迟
,并且并未从根本上解决暴露偏差问题。
在这项工作中,我们提出了一种新颖的算法——自强制(Self Forcing,简称 SF),用于解决自回归视频生成中的暴露偏差(exposure bias)问题。受早期循环神经网络(RNN)时代序列建模技术的启发[40, 65, 103],我们的方法通过在训练过程中显式地展开自回归生成过程,即每个帧都基于之前自生成的帧(而非真实标注帧)来生成,从而弥合了训练与测试阶段的分布差异。这使得我们可以使用整体分布匹配损失函数[18, 98, 99] 对完整生成的视频序列进行监督训练。通过迫使模型面对并学习自身预测中的错误,自强制方法有效地缓解了暴露偏差,并减少了误差累积。
尽管自强制方法因其序列化特性而看似在训练时难以并行计算、计算成本较高,但我们证明它可以在训练后阶段以算法形式高效实现——此时模型无需大量梯度更新即可收敛。通过采用少步扩散主干网络以及精心设计的梯度截断策略,自强制方法出人意料地比其他并行策略更高效,在相同的实际训练时间(wall-clock time)内实现了更优的性能。此外,我们还引入了一种滚动键值缓存(rolling KV cache)机制,进一步提升了视频外推的效率。
大量实验表明,我们的模型能够在单张 H100 GPU 上实现实时视频生成,速度达 17 FPS,延迟低于一秒,同时在生成质量上与当前较慢的双向及自回归视频扩散模型相比具有竞争力甚至更优。这些进展为真正具有交互性的视频生成应用场景——如直播、游戏和世界模拟——打开了大门,在这些场景中,延迟预算是以毫秒而非分钟来衡量的。
2 Related Work
用于视频生成的生成对抗网络(GANs)。早期的视频生成方法主要依赖于生成对抗网络(GANs)[18],这些方法要么使用卷积网络并行生成整个视频[5, 68, 82],要么采用循环架构逐帧生成视频[14, 44, 49, 77, 81]。近年来,GANs 也被应用于视频扩散模型的蒸馏[47, 56, 91, 108]。由于 GANs 中的生成器在训练和推理阶段遵循相同的过程,因此其本质上避免了暴露偏差(exposure bias)。我们的工作从这一 GAN 的基本原理中汲取灵感,通过直接优化生成器输出分布与目标分布之间的对齐来进行建模。
用于视频生成的序列生成(自回归)/扩散模型。现代视频生成模型在很大程度上已转向扩散模型或自回归模型,因为它们具有更强的扩展能力。视频扩散模型通常采用双向注意力机制,以同时对所有视频帧进行去噪[3, 4, 6, 13, 23–26, 39, 64, 80, 83, 97]。相比之下,自回归模型则通过下一 token 预测目标进行训练,并在推理时逐个生成时空 token[7, 38, 66, 86, 88, 94]。
自回归-扩散混合模型。最近,融合自回归与扩散框架的混合模型已成为视频生成建模[8, 16, 20, 22, 28, 33, 45, 50, 52, 89, 100, 106, 107]以及其他序列领域[1, 12, 43, 53, 59, 90, 110]中一个颇具前景的研究方向。这类方法通常依赖于一个长而迭代的预测链条(既包括时间上的自回归,也包括空间上的迭代去噪),这可能导致显著的误差累积。
Rolling Diffusion及其变体。另一类研究[35, 67, 69, 76, 93, 105]采用逐步增加噪声的调度方式来训练视频扩散模型,即从早期帧到后期帧,噪声水平逐渐升高。尽管这些方法支持生成长序列视频时累积误差更小,有时也被称为自回归方法,但它们并未严格遵循自回归链式法则分解。因此,在交互式应用中,这些方法会表现出显著的延迟——因为在向用户展示当前帧之前,后续帧已经被部分预生成。这种“过早承诺”限制了实时用户控制的影响,导致紧随其后的帧响应能力有限。
CausVid。我们的工作与CausVid[100]最为相关,后者**采用DF(分布流)方案和分布匹配蒸馏(DMD)来训练少步自回归扩散模型。**然而,**CausVid存在一个关键缺陷:其训练输出(通过DF生成)并非来自模型在推理时实际生成的分布,因此DMD损失是在匹配错误的分布。**我们精准地指出了这一问题,并提出了一种解决方案,使其匹配真实的模型分布。
3 Self Forcing: Briding Train-Test Gap via Holistic Post-Training
我们首先在第3.1节中给出自回归视频扩散模型的正式定义,并描述标准的训练方法。在第3.2节中,我们介绍了Self Forcing(自强制)训练算法的主要部分,并说明如何通过几步扩散模型高效地实现该算法。在第3.3节中,我们描述了多种整体性、视频级分布匹配的训练目标选择。最后,在第3.4节中,我们引入了一种滚动键值缓存机制,用于实现任意长度视频的高效生成。
3.1 Preliminaries: Autoregressive Video Diffusion Models
自回归视频扩散模型是一种混合生成模型,它将自回归链式法则分解与去噪扩散模型相结合,用于视频生成。具体来说,给定一个由N个视频帧组成的序列x₁:N = (x₁, x₂, …, x_N),它利用链式法则将联合分布分解为条件概率的乘积:p(x₁:N) = ∏ᵢ₌₁ᴺ p(x_i | x_{<i})。然后,每个条件分布p(x_i | x_{<i})通过扩散过程进行建模,**即通过在先前生成的帧的条件下,对初始高斯噪声进行逐步去噪来生成每一帧。**这种建模方式结合了自回归模型与扩散模型的优势,在捕捉序列依赖关系的同时,能够实现高质量连续值视觉信号的生成。在实际应用中,我们也可以选择一次性生成一整块连续的帧,而不是一次只生成一帧[69, 100]。不过,为了记法上的简洁,在本节中我们仍然将每一块(chunk)称为一帧。
目前大多数自回归视频扩散模型是在教师强制(Teacher Forcing,简称TF)或扩散强制(Diffusion Forcing,简称DF)的范式下,通过逐帧去噪损失进行训练的。具体来说,每一帧 x i 0 x_i^0 xi0 会通过前向过程 q t i ∣ 0 ( x i t i ∣ x i 0 ) q_{t_i|0}(x_i^{t_i} | x_i^0) qti∣0(xiti∣xi0) 被加入噪声,使得 x i t i = Ψ ( x i 0 , ε i , t i ) = α t i x i 0 + σ t i ε i x_i^{t_i} = \Psi(x_i^0, \varepsilon_i, t_i) = \alpha_{t_i} x_i^0 + \sigma_{t_i} \varepsilon_i xiti=Ψ(xi0,εi,ti)=αtixi0+σtiεi,其中 α t i \alpha_{t_i} αti 和 σ t i \sigma_{t_i} σti 是在有限时间范围 t i ∈ [ 0 , 1000 ] t_i \in [0, 1000] ti∈[0,1000] 内预定义的噪声调度参数,而 ε i ∼ N ( 0 , I ) \varepsilon_i \sim \mathcal{N}(0, I) εi∼N(0,I) 是高斯噪声。
在教师强制(TF)中,时间步 t i t_i ti 通常是所有帧共享的;而在扩散强制(DF)中,每个帧的时间步是独立采样的。生成模型通过前向过程的时间逆转来学习,其中每一步去噪可以通过一个神经网络 ε ^ i θ : = G θ ( x i t i , t i , c ) \hat{\varepsilon}_i^\theta := G_\theta(x_i^{t_i}, t_i, c) ε^iθ:=Gθ(xiti,ti,c) 来预测添加到每一帧上的噪声 ε i \varepsilon_i εi,该网络以上下文信息 c c c 为条件。在教师强制中,上下文 c c c 是干净的真实帧 x < i 0 x_{<i}^0 x<i0;而在扩散强制中,上下文是带噪声的上下文帧 x j < i t j < i x_{j<i}^{t_{j<i}} xj<itj<i。该模型通过最小化预测噪声与真实添加噪声之间的逐帧均方误差(MSE)来进行训练:
L DM θ = E x i , t i , ε i [ w t i ∥ ε ^ i θ − ε i ∥ 2 2 ] , \mathcal{L}_{\text{DM}}^\theta = \mathbb{E}_{x_i, t_i, \varepsilon_i} \left[ w_{t_i} \| \hat{\varepsilon}_i^\theta - \varepsilon_i \|^2_2 \right], LDMθ=Exi,ti,εi[wti∥ε^iθ−εi∥22],
其中 w t i w_{t_i} wti 是一个权重函数。
我们关注的是基于Transformer架构的扩散模型(为清晰起见,公式中省略了文本条件部分),该模型在由因果3D变分自编码器(VAE)[37] 编码的压缩潜在空间中运行。自回归链式法则分解通过因果注意力机制实现。图2(a)和(b)展示了教师强制(Teacher Forcing)与扩散强制(Diffusion Forcing)方法的注意力掩码配置。对于教师强制方法,我们描述了一种高效变体,它使用块稀疏注意力掩码并行处理所有帧,而不是在每次训练迭代中只对一帧进行去噪[33]。这种设计已在基于MAR[43]的自回归视频生成[111]中采用,并且同时也在其他自回归视频扩散模型[106, 107]中得到了应用。
图2:注意力掩码配置。教师强制(a)和扩散强制(b)都在并行模式下对整个视频进行训练,并通过自定义注意力掩码来强制因果依赖关系。相比之下,我们的自强制训练(c)通过键值缓存(KV caching)模拟了自回归(AR)推理过程,并且不依赖于特殊的注意力掩码。为了便于说明,我们展示了一个包含3帧视频的场景,每帧由2个标记组成。
3.2 Autoregressive Diffusion Post-Training via Self-Rollout
自强迫(Self Forcing)的核心思想是在训练过程中,通过遵循推理阶段的策略,采用自回归自我展开(autoregressive self-rollout)的方式生成视频。具体来说,我们采样一批视频 {x₁:N_θ} ∼ p_θ(x₁:N) = ∏ᵢ₌₁ᴺ p_θ(x_i|x_<i),其中每一帧 x_i 是通过在自生成输出(包括过去已生成的干净上下文帧以及当前时间步的噪声帧)条件下进行迭代去噪而生成的。
与大多数先前仅在推理阶段使用键值缓存(KV caching)的自回归模型不同,我们的自强迫方法创新性地在训练阶段也采用了键值缓存,如图 2© 所示。
然而,若采用标准的多步扩散模型来实现自驱(Self Forcing),其计算成本将高得难以承受,因为这需要在很长的去噪链上进行展开(unrolling)和反向传播(backpropagation)。因此,我们选择使用一个少步扩散模型 Gθ 来近似自回归分解中的每一个条件分布 pθ(x_i | x_{<i})。考虑时间步序列的一个子集 {t₀ = 0, t₁, …, t_T = 1000},其中 t₀ 到 t_T 取自 [0, …, 1000],在每一个去噪步骤 t_j 和帧索引 i 处,模型会根据之前已经生成的干净帧 x_{<i} 对中间噪声帧 x_i^{t_j} 进行去噪。随后,通过前向过程 Ψ 向去噪后的帧中注入较低噪声水平的高斯噪声。
按照少步扩散模型中的标准做法[74, 98],将带噪声的帧 x i , t j − 1 x_{i,t_j-1} xi,tj−1作为下一步去噪过程的输入。模型分布 p θ ( x i ∣ x < i ) p_\theta(x_i \mid x_{<i}) pθ(xi∣x<i)被隐式地定义为 f θ , t 1 ∘ f θ , t 2 ∘ . . . ∘ f θ , t T ( x i , t T ) f_{\theta,t_1} \circ f_{\theta,t_2} \circ ... \circ f_{\theta,t_T}(x_{i,t_T}) fθ,t1∘fθ,t2∘...∘fθ,tT(xi,tT),其中 f θ , t j ( x i , t j ) = Ψ ( G θ ( x i , t j , t j , x < i ) , ε t j − 1 , t j − 1 ) f_{\theta,t_j}(x_{i,t_j}) = \Psi(G_\theta(x_{i,t_j}, t_j, x_{<i}), \varepsilon_{t_j-1}, t_j-1) fθ,tj(xi,tj)=Ψ(Gθ(xi,tj,tj,x<i),εtj−1,tj−1),且 x i , t T ∼ N ( 0 , I ) x_{i,t_T} \sim \mathcal{N}(0, I) xi,tT∼N(0,I)。
然而,即使使用少步数模型,若直接对整个自回归扩散过程进行反向传播,仍会导致过高的内存消耗。为应对这一挑战,我们提出了一种梯度截断策略,将反向传播限制在每帧的最终去噪步骤上。此外,与推理时始终使用 T 个去噪步骤不同,在每次训练迭代中,我们为每个样本序列从 [1, T] 范围内随机采样一个去噪步数 s,并将该第 s 步的去噪输出作为最终输出。这种随机采样方法确保了所有中间去噪步骤都能接收到监督信号。此外,在训练过程中,我们还通过限制梯度流向 KV 缓存嵌入(KV cache embeddings),将当前帧的梯度与之前帧的梯度分离。关于训练过程的完整描述,请参见算法 1。
3.3 Holistic Distribution Matching Loss
自回归自滚动(autoregressive self-rollout)直接从推理时模型分布中生成样本,使我们能够应用整体性的、视频级别的损失函数,从而将生成视频的分布 pθ(x₁:N) 与真实视频的分布 pdata(x₁:N) 对齐。为了利用预训练的扩散模型并增强训练稳定性 [32],我们向这两个分布中注入噪声,并对 pθ,t(x₁:Nₜ) 和 pdata,t(x₁:Nₜ) 进行匹配,其中每个分布都表示在应用前向扩散过程后的相应分布:p·,t(x₁:Nₜ) = ∫ qt|0(x₁:Nₜ | x₁:N) p·(x₁:N) dx₁:N。我们的框架通常适用于各种散度度量和分布匹配框架,在本文中我们考虑了三种方法:
- Distribution Matching Distillation (DMD) [98 , 99 ] 该方法通过利用分布间的得分差异来指导梯度更新,从而最小化反向Kullback-Leibler散度Et[DKL(pθ,t∥pdata,t)]。
- Score Identity Distillation (SiD) [112, 113]: 他的方法通过费希尔散度(Fisher divergence)实现分布匹配,具体形式为 E_{t, p_θ,t} [‖∇ log p_θ,t − ∇ log p_data,t‖²]。
- Generative Adversarial Networks (GANs) [ 18 ]: 通过生成器(我们的自回归扩散模型)与一个用于区分真实视频和生成视频的判别器之间的极小极大博弈,来近似计算Jensen-Shannon散度。
重要的是,我们的训练目标是将整个视频序列的整体分布与数据分布 D(p_data(x₁:N) ∥ p_θ(x₁:N)) 对齐。相比之下,TF(Teacher Forcing)和 DF(Data Forcing)可以理解为逐帧分布匹配:E_{x<i ∼ p_data} [DKL(p_data(x_i | x<i) ∥ p_θ(x_i | x<i))],其中 DF 还额外从噪声污染的数据分布中采样上下文帧 {x<i} ∼ ˜p_data。我们的方法从根本上改变了训练动态——上下文帧 {x<i} 是从模型自身的分布 p_θ 中采样的,而不是从数据分布(无论是干净的还是带噪声的)中采样的。这种训练与推理分布之间的对齐,有效解决了暴露偏差(exposure bias)问题,并迫使模型从自身的不完美中学习,从而增强了对误差累积的鲁棒性。
尽管这三种目标(即整体分布匹配、教师强制、数据强制)都曾在扩散模型的时间步蒸馏(timestep distillation)背景下使用过,但我们的主要动机与蒸馏方法有着根本的不同:我们旨在通过分布匹配来解决暴露偏差问题,从而提升自回归视频生成的质量,而不仅仅是为了加速采样。这一区别使得其他流行的蒸馏方法 [74] 不适用于我们的框架,因为它们仅仅关注于减少时间步数,而没有直接对齐生成器的输出分布。尽管 CausVid [100] 同样采用 DMD(Distribution Matching Distillation)来匹配生成视频的分布,但它在训练过程中优化的分布(使用扩散强制输出的分布)与实际推理时的分布并不一致,这显著削弱了其有效性。
3.4 Long Video Generation with Rolling KV Cache
自回归模型相较于标准视频扩散模型的一个关键优势在于其外推能力,原则上可以通过滑动窗口推理生成无限长的视频。虽然采用扩散强制(Diffusion Forcing)[10, 73] 训练的双向注意力模型也能以自回归方式生成视频,但它们不支持键值(KV)缓存,每生成一个新帧都需要完全重新计算注意力矩阵。这导致其计算复杂度高达 O(T L²)(其中 T 表示去噪步数,L 表示窗口大小),如图 3(a) 所示。
图3:视频外推的效率对比。当通过滑动窗口推理进行视频外推时,(a) 使用TF/DF[10, 73]训练的双向扩散模型不支持KV缓存;(b) 先前的因果扩散模型[69, 100]在窗口移动时需要重新计算KV;© 我们的方法无需重新计算KV,从而实现更高效的外推。
另一方面,具有因果注意力的模型可以利用 KV 缓存来提高效率。然而,现有实现 [69, 100] 在连续滑动窗口之间的重叠帧上需要重新计算 KV 缓存,如图 3(b) 所示。当采用密集滑动窗口时,这会导致 O(L² + T L) 的复杂度。因此,先前的实现通常采用较大的步幅和最小的重叠来降低计算成本,但这会牺牲时间一致性,因为每个窗口起始帧所依赖的历史上下文非常有限。
受大语言模型研究的启发 [92],我们**为自回归扩散模型提出了一种滚动 KV 缓存机制,该机制支持无限长视频生成,且无需重新计算 KV 缓存。**如图 3© 所示,我们维护一个固定大小的 KV 缓存,用于存储最近 L 帧中 token 的键值嵌入。**在生成新帧时,我们首先检查 KV 缓存是否已满。如果已满,则移除最旧的 KV 缓存条目后再添加新的。这种方法能够在时间复杂度为 O(T L) 的情况下实现无尽帧生成,同时在生成每个新帧时仍能保持足够的上下文长度。**算法 2 详细描述了我们采用滚动 KV 缓存的自回归长视频生成算法。
然而,该机制的简单实现会由于分布不匹配而导致严重的闪烁伪影。具体来说,第一个潜在帧与其他帧具有不同的统计特性:它仅编码第一张图像,且未进行时间压缩。模型在训练过程中始终将第一帧视为图像潜在表示,因此在滚动 KV 缓存场景下(即第一帧不再可见时)无法泛化。尽管我们**尝试了类似于 StreamingLLM [92] 的策略——在滚动其他帧的 KV 缓存时保持第一帧固定,但这些方法对视频生成效果不佳。**我们的解决方案简单而有效:在训练过程中,我们限制注意力窗口,使得模型在对最后一个块进行去噪时无法关注第一个块,从而模拟长视频生成过程中遇到的条件。
4 Experiments
我们基于Wan2.1-T2V-1.3B [83] 实现了自强制(Self Forcing)方法,这是一个基于流匹配(Flow Matching [48])的模型,能够以16帧每秒(FPS)的速率生成分辨率为832×480、时长为5秒的视频。按照CausVid [100] 的初始化协议,我们首先使用从基础模型采样的16,000个常微分方程(ODE)解对,在因果注意力掩码(causal attention masking)的设置下对基础模型进行微调。在ODE初始化和自强制训练过程中,我们从经过筛选并利用大语言模型(LLM)扩展的VidProM [85] 数据集中采样文本提示。
我们采用4步扩散,并实现了逐帧(frame-wise)和分块(chunk-wise)自回归两种变体,其中后者每次生成一组共3个潜在帧。我们采用R3GAN [29] 目标函数,该函数包含相对配对生成对抗网络损失(relativistic pairing GAN loss [34])以及R1 + R2正则化 [58]。我们使用14B基础模型生成70,000个视频,作为训练生成对抗网络(GANs [70])以及微调多步TF/DFAR扩散基线的训练数据集。值得注意的是,我们算法的DMD/SiD实现仍然无需数据,能够将预训练的视频扩散模型转换为自回归模型,而无需任何视频训练数据。
评估指标 我们采用VBench [31] 和用户偏好研究来评估视觉质量和语义对齐效果。我们还严格评估了我们方法在实时应用中的效率。尽管近期一些工作仅基于吞吐量就声称具备“实时”视频生成能力 [24, 109],但我们认为真正的实时性能不仅需要足够的吞吐量(超过视频播放速率),还需要比感知阈值更低的延迟——而这一阈值可能因应用场景而异 [41]。因此,我们同时评估了吞吐量和首帧延迟,以全面评估实时能力,所有速度测试均在单张NVIDIA H100 GPU上进行。
与现有基线模型的对比 我们将我们的模型与规模相近的相关开源视频生成模型进行比较。我们的对比包括两个扩散模型:Wan2.1-1.3B [83](我们的初始化权重)和LTX-Video [24](以高效著称)。我们还与多个自回归模型进行了比较,包括Pyramid Flow [33]、NOVA [13]、SkyReels-V2 [10]、MAGI-1 [69] 和 CausVid [100](同样基于Wan-1.3B进行初始化)。
如表1所示,我们的分块自回归模型在所有对比模型中取得了最高的VBench评分,同时实现了实时吞吐量(17.0 FPS)与亚秒级延迟,该延迟水平足够低,可满足某些实时应用场景的需求,例如直播视频流[2]。
图4展示了用户研究结果,比较了我们的分块自强迫(Self Forcing)模型与多个重要基线模型的表现。我们的方法始终优于所有其他方案,包括我们模型所基于初始化的多步扩散模型Wan2.1。我们的逐帧变体在保持强大生成质量的同时,提供了最低的延迟(0.45秒),因此特别适用于对延迟敏感的实时应用。此处的结果是采用DMD损失目标所获得的。
采用SiD和GAN目标函数训练的模型取得了与消融实验中详细分析结果相当的性能表现。如图5所示,CausVid存在误差累积问题,导致随时间推移饱和度持续上升。我们的方法在视觉质量上略优于Wan2.1/SkyReels-V2,同时延迟速度提升了约150倍。
消融实验。我们通过控制变量对比了自强制(Self Forcing)与其他自回归扩散训练方法。具体评估以下配置:(1) 采用去噪扩散损失、分别使用教师强制(Teacher Forcing)或扩散强制(Diffusion Forcing)训练的自回归扩散模型;(2) 采用TF/DF输入但以分布匹配目标(DMD)优化的少步自回归扩散模型。后一种结合扩散强制与分布匹配目标的配置,在我们的实现框架下本质上复现了CausVid[100],从而能在完全相同的训练条件下进行直接对比。
表2显示,自强制在各类分布匹配目标(DMD、SiD和GAN)下均表现稳健,持续超越所有基线方法。当训练模式从分块自回归转向帧级自回归时(由于自回归展开步数增加导致的误差累积,通常表现为渐进性过饱和或过度锐化——类似附录B图5中CausVid的情况),基线方法会出现显著的质量下降;而自强制在这两种设置下均保持稳定性能,凸显了其解决暴露偏差问题的有效性。
表2:消融实验。我们在当前训练设置下,针对分块式(左)和逐帧式(右)自回归模型,开展了对比不同训练范式与分布匹配目标的对照消融研究。自强制方法(Self Forcing)在所有不同的分布匹配目标下均表现良好,并且始终优于其他训练方法。
滚动KV缓存机制。我们观察到,在滑动窗口移动时重新计算KV缓存(图3(b))会导致生成10秒视频时的吞吐量大幅降低(仅4.6 FPS)。虽然朴素的滚动KV缓存能维持高吞吐量,但会引入严重视觉伪影(如附录B示例所示)。通过训练模型在不预知初始图像潜变量的情况下生成帧序列,我们既有效抑制了这些伪影,又保持了高吞吐量(16.1 FPS)。
训练效率。鉴于自强制的序列化特性与Transformer的并行化范式相矛盾,人们可能预期其训练计算成本过高。但出人意料的是,实验表明自强制在训练效率上反而优于其他策略。如图6(左)所示,自强制的单次迭代训练时间与教师强制/扩散强制相当;更重要的是,图6(右)显示在相同实际训练时长预算下,自强制能取得更优的质量表现。每个采用DMD的自强制实验在64块H100 GPU上约1.5小时即可收敛。
这一反直觉结果源于两个关键因素:首先,虽然自强制执行序列化展开,但仍能并行处理每帧/分块内的所有token,在训练过程中保持高GPU利用率;其次,教师强制和扩散强制需要专门设计注意力掩码模式来强制因果依赖关系,即便采用FlexAttention[15]等优化实现仍会引入额外计算开销。而自强制在训练过程中始终使用全注意力机制,能够充分利用FlashAttention-3[72]等高度优化的注意力内核。
5 Discussion
在本节中,我们将探讨研究结果的更广泛意义,讨论其他视角,并概述未来研究的潜在方向。
**可并行化训练范式的基本局限性。**可并行化训练通过实现高效扩展,对Transformer的成功起到了关键作用。然而,这种并行性也引入了根本性的限制。先前的研究[57]表明,并行架构在序列状态跟踪问题中本质上会限制模型的表达能力。我们的工作则揭示了另一个关键局限:可并行化训练范式会导致训练分布与推理分布之间出现错位,从而随着时间推移引发误差累积。我们倡导一种新的范式——并行预训练与序列后训练相结合,以融合两者的优势。尽管这种范式转变在语言建模领域通过强化学习[21]正逐渐获得发展势头,但我们的工作是朝着这一方向在视频领域迈出的第一步。我们相信,我们的框架具有通用性,可以应用于其他序列领域,尤其是数据为连续形式的场景。
**自回归模型、扩散模型与生成对抗网络的相互作用。**自回归模型、扩散模型和生成对抗网络(GANs)传统上被视为生成建模中彼此独立的范式。我们的工作突出了它们之间的互补性,并展示了如何将它们有效整合。具体而言,自回归模型和扩散模型提供了分解分布的互补方式(链式法则 vs. 潜变量),这些方式可以以嵌套的形式组合使用。GANs的核心思想——通过从隐式生成器中采样来使隐式生成器的分布与目标分布相匹配——可用于训练一个由自回归-扩散分解驱动的生成器。
局限性与未来方向。 尽管我们的方法在训练上下文长度范围内有效缓解了误差累积问题,但在生成远超训练时所见的更长视频时,仍可观察到质量下降。此外,我们的梯度截断策略——虽然对内存效率至关重要——可能会限制模型学习长程依赖的能力。未来的工作可以探索改进的外推技术,以及像状态空间模型[19, 63]这样在内存效率与长上下文建模之间实现更好平衡的本征循环架构。