目录
一、概述
该论文提出StyleCrafter,一种增强预训练文本到视频的方法,通过添加一个风格控制器,可以从文本提示(内容)和参考图像(风格)中生成具有特定风格的视频。
(1)提出一种自适应融合模块,来平衡基于文本的内容特征和基于图像的风格特征的影响
(2)使用富含风格化的图像数据集训练风格控制器,并通过微调来将图像中学习到的风格能力迁移到T2V中,克服了缺乏具有风格的视频数据的问题,也不需要对风格化视频进行监督。
(3)在图像生成和视频生成的风格化中显著优于当前SOTA性能。

二、相关工作
1、文生视频模型
Text-to-video 合成是一个非常具有挑战性但应用价值很大的任务,旨在从文本描述生成相应的视频。目前已经提出了多种方法,包括自回归式的 Transformer 模型和扩散模型。
Video Diffusion Model 采用了时空分解的 U-Net 结构来执行像素空间的扩散过程。Imagen Video 提出了级联扩散模型和参数化来增强 VDM 的性能。
另一类方法善用预训练的 T2I 模型,并进一步引入一些时间块来扩展到视频生成。例如 CogVideo 建立在 CogView2 的基础上,采用了多帧率的分层训练策略从 T2I 过渡到 T2V。类似地,Make-a-video、MagicVideo 和 LVDM 也继承了预训练的 T2I 扩散模型,通过引入时间注意力模块来实现 T2V 生成。
2、风格化图像生成
风格化图像生成旨在创造具有特定风格的图像。分离风格和内容是一个经典的挑战。早期研究集中于图像风格迁移,也就是将一幅图像风格转移到另一幅图像。
传统的方法,基于低层次提取的特征来对齐图像和风格图像的关系。后续的发展在CNN的特征图提取风格化信息。
随着生成模型发展,风格化图像生成应用于T2I模型,但由于文本提示难以准确描述风格信息,所以转向原来的基于参考图像的图像生成。
Textural Inversion(TI)提出一种优化特定的文本嵌入来表示风格,IP-Adaptor通过预训练Stable Diffusion作为图像生成器。
3、风格化视频生成
最早的风格化视频生成,由于缺乏大规模的风格化视频数据,一种常见的视频风格化方法是在逐帧的基础上应用图像风格化技术。
之后的发展包括利用光流约束生成稳定的风格化视频序列,基于预训练T2I的视频编辑方法等等,但是无法实现动作跨度很大的帧。
在风格化视频生成方面,处理高度的艺术化还是难以做到,这是由于训练的数据集过于偏向真实世界的视频,导致生成的帧倾向于现实主义。
VideoComposer专注于可控视频生成,允许使用多种条件输入来控制视频生成,包括结构、运动、风格等。尽管VideoComposer支持多种控制,包括风格,但它们无法分离风格概念,导致视觉质量和运动自然性有限。
AnimateDiff将T2I模型作为基础生成器,并添加了一个运动模块来学习运动动力学,这使得将个性化T2I模型(如LoRA、Dreambooth)的成功扩展到视频动画成为可能。然而,对个性化模型的依赖限制了它生成任意风格视频的能力。
Text2Cinemagraph,利用预训练的文本到图像模型来开创文本引导的艺术动图创作。这种方法在生成具有合理运动的艺术场景方面超越了一些现有的文本到视频模型,如VideoCrafter。然而,它的主要局限性在于适用范围较窄,主要局限于风景,并且倾向于仅为流体元素生成稀疏的运动模式。
三、StyleCrafter
StyleCrafter在原有的视频生成模型中添加一个风格适配器模块,包括风格特征提取器,双交叉注意力模块,文本关注的尺度因素预测器。
其中推理过程基于文本和样式参考图像生成视频,文本决定视频内容,图像控制视觉风格,确保视频生成过程的分离控制。
训练过程为两阶段策略,先训练一个丰富的艺术风格图像数据集来训练风格提取器。之后对风格图像和真实视频混合的数据集来微调视频生成模型。

1、基于参考图像的风格调制
首先视频生成模型使用预训练的VideoCrafter模型,保留T2V的能力。
1.1内容风格的解耦数据增强
使用了两个公开数据集的风格图像,即WikiArt和Laion-Aesthetic的一个子集(Aesthetic score>6.5)。由于以往的image-caption对中,标题同时包含内容和风格描述,所以进行了内容风格解耦。(其实这一部分也间接导致了,输入文字他不懂风格)
使用BLIP-2为图像重新生成caption,并且删除带有正则表达式的形式的风格描述。
另外由于图像既包含风格信息又包含内容信息,需要一种解耦手段,使得提取的特征只包含风格特征。
另外作者认为一个较大的图像块(例如图像的50%)仍然可以保持与全图像相似的风格表示。因此,作者通过不同的策略处理每个具有风格的图像,以获得目标图像和风格图像。对于目标图像,将图像的较短边缩放到512并从中心区域裁剪;对于风格图像,将图像的较短边缩放到800并随机裁剪一个512×512的局部块。这种方法减少了风格参考和生成目标之间的重叠,同时仍然保持了全局风格语义的完整性和一致性。(这一部分就是分类图像数据集还是风格数据集)
1.2风格嵌入提取器
利用预训练的CLIP作为特征提取器。具体来说利用一个全局token和256个局部tokens作为后续query transformer(Q-former)的输入。之后利用Q-former来提取风格嵌入特征,并创建了N个可学习的query embeddings作为输入。
其中Q-former是视觉条件提取的常用架构,BLIP-2中有所应用。


1.3自适应风格内容融合
一种是add到文本信息上,在通过cross-attention将融合信息输入到U-Net每一层上。
另一种就是dual-cross attention(IP-adaptor),dynamiCrafter中参考图像信息和文本的融合也是用的这个方法)。
DynamiCrafter用的是tanh门控+λ参数权重,相比之下,StyleCrafter中用的是LN加权重,那么对于不同的通道应该权重也不一样。
另外这个 是可学习的,输入scale query经过q-former和mlp+激活函数输出s。
2、风格化特征的时间适应
给定一个预训练的T2V模型,在图像数据集上训练style controler 可以实现生成很好的带风格的图像,但是对于视频来说,生成的效果就容易存在时间上的抖动和视觉伪影。
原因是跨帧的操作,时间自注意力层,没有参与到带风格生成的过程中,风格生成一直正交与时间轴,引发了不兼容性,所以需要再有style controler情况下对时间注意力层进行微调,微调遵循一般T2V图像和视频联合训练的做法,数据集使用带风格图像数据和逼真的视频数据混合数据集。微调过程中保证时间块训练,其他模块frozen。
另外介绍了一个Classifier-Free Guidance for Multiple Condition,因为相比T2I模型,视频模型对风格引导更加敏感,所以使用统一的λ来同时控制风格和上下文引导可能导致不理想的生成结果。
所以论文中提出了一种灵活的机制,来分离风格和图像的引导,但是我不太清楚这个分布指的到底是什么。但是从公式来看,是分别将文本带来的影响和风格带来的影响加权后叠加到原始分布上,保证能够对这两种分布灵活控制。
T2I部分框架图。基于SDXL模型
四、实验
1、可视化效果
利用风格参考图像,对比不同的风格迁移模型的效果
2、图像量化对比
从量化来看早期的方法基于SD2.1,而我们的方法基于SDXL。
3、视频可视化效果对比
4、视频量化对比
文本对齐对比。
风格对齐。
5、 消融实验
T2I上的消融。
二阶段整体模型的消融。
项目地址:StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter