原文:Video generation models as world simulators | OpenAI
我们探索在视频数据上大规模训练生成模型。具体来说,我们在可变时长、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用一种在视频和图像潜在代码的时空块上运行的转换器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。
本技术报告重点介绍 (1) 我们将所有类型的视觉数据转换为统一表示的方法,从而实现大规模生成模型的训练,以及 (2) 对 Sora 的功能和局限性进行定性评估。本报告未包含模型和实施细节。
之前的许多工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、1、2、3 生成对抗网络、4、5、6、7 自回归变换器、8、9 和扩散模型。10、11、12 这些工作通常侧重于一小类视觉数据、较短的视频或固定大小的视频。Sora 是一种通用的视觉数据模型 - 它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像,甚至可以生成长达一分钟的高清视频。
将视觉数据转化为补丁
我们从大型语言模型中汲取灵感,这些模型通过在互联网规模数据上进行训练获得了通用能力。13, 14 LLM 范式的成功部分得益于使用标记优雅地统一了各种文本模式——代码、数学和各种自然语言。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些优势。LLM 有文本标记,而 Sora 有视觉补丁。补丁以前已被证明是视觉数据模型的有效表示。15, 16, 17, 18 我们发现补丁是一种高度可扩展且有效的表示,可用于在不同类型的视频和图像上训练生成模型。
在高层次上,我们首先将视频压缩到低维潜在空间19,然后将表示分解为时空补丁,从而将视频转换为补丁。
视频压缩网络
我们训练一个降低视觉数据维数的网络。20 该网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在表示。Sora 接受训练,随后在这个压缩的潜在空间内生成视频。我们还训练了一个相应的解码器模型,将生成的潜伏空间映射回像素空间。
时空潜在补丁
给定一个压缩的输入视频,我们提取一系列时空补丁,这些补丁充当转换器标记。此方案也适用于图像,因为图像只是具有单帧的视频。我们基于补丁的表示使 Sora 能够对具有可变分辨率、持续时间和宽高比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。
用于视频生成的缩放变压器
Sora 是一个扩散模型21、22、23、24、25;给定输入的噪声补丁(以及文本提示等条件信息),它经过训练可以预测原始的“干净”补丁。重要的是,Sora 是一个扩散变压器。26 Transformers 已在各种领域展示了卓越的缩放特性,包括语言建模、13、14 计算机视觉、15、16、17、18 和图像生成。
在这项研究中,我们发现扩散变压器也能像视频模型一样有效地扩展。下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。
可变的持续时间、分辨率、宽高比
过去生成图像和视频的方法通常是将视频调整大小、裁剪或修剪为标准尺寸,例如 256x256 分辨率的 4 秒视频。我们发现,使用原始尺寸的数据进行训练可以带来多种好处。
采样灵活性
Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有内容进行采样。这让 Sora 可以直接以原始宽高比为不同设备创建内容。它还让我们能够快速制作较小尺寸的内容原型,然后以全分辨率生成内容,所有这些都使用同一个模型。
改进的取景和构图
我们通过实证研究发现,以原始宽高比对视频进行训练可以改善构图和取景。我们将 Sora 与我们模型的一个版本进行了比较,该版本将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左)有时会生成仅部分显示主体的视频。相比之下,Sora 的视频(右)的取景有所改进。
语言理解
训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们将 DALL·E 330 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。
与 DALL·E 3 类似,我们还利用 GPT 将简短的用户提示转换为更长的详细字幕,然后发送给视频模型。这使 Sora 能够生成准确遵循用户提示的高质量视频。
使用图像和视频提示
上面和我们的登录页面中的所有结果都显示了文本到视频的示例。但是 Sora 也可以使用其他输入进行提示,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美循环的视频、为静态图像制作动画、向前或向后延长视频时间等。
为 DALL·E 图像制作动画
Sora 能够生成视频,只要输入图像和提示即可。下面我们展示了基于 DALL·E 2 和 DALL·E 3 图像生成的示例视频。
扩展生成的视频
Sora 还能够扩展视频,无论是向前还是向后。下面是三个视频,它们都是从生成的视频的某个片段开始向后扩展的。因此,这三个视频的开头各不相同,但结局都是一样的。
我们可以使用此方法将视频向前和向后延长以产生无缝的无限循环。
视频到视频编辑
扩散模型已经实现了多种根据文本提示编辑图像和视频的方法。下面我们将其中一种方法 SDEdit,应用于 Sora。这项技术使 Sora 能够零镜头转换输入视频的风格和环境。
连接视频
我们还可以使用 Sora 在两个输入视频之间逐渐插入,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的示例中,中间的视频插入左侧和右侧的相应视频之间。
图像生成能力
Sora 还能够生成图像。我们通过在空间网格中排列高斯噪声块来实现这一点,时间范围为一帧。该模型可以生成不同大小的图像——分辨率最高可达 2048x2048。
新兴的模拟能力
我们发现,视频模型在大规模训练时会展现出许多有趣的新兴能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些属性的出现没有任何明确的 3D、物体等归纳偏差——它们纯粹是规模现象。
3D 一致性。Sora 可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素会在三维空间中一致移动。
长距离连贯性和物体持久性。视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。我们发现 Sora 通常(但并非总是)能够有效地对短距离和长距离依赖关系进行建模。例如,我们的模型可以保留人物、动物和物体,即使它们被遮挡或离开画面。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持它们的外观。
与世界互动。Sora 有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界。Sora 还能够模拟人工过程——一个例子就是视频游戏。Sora 可以同时使用基本策略控制 Minecraft 中的玩家,同时以高保真度渲染世界及其动态。这些功能可以通过在 Sora 上提示提及“Minecraft”的字幕来零样本引出。
这些能力表明,不断扩展视频模型是开发高性能物理和数字世界以及生活在其中的物体、动物和人类模拟器的一条有希望的道路。
讨论
作为一款模拟器,Sora 目前存在许多局限性。例如,它无法准确模拟许多基本交互的物理特性,例如玻璃破碎。其他交互,例如进食,并不总是能产生正确的物体状态变化。我们在着陆页中列举了该模型的其他常见故障模式,例如在长时间样本中出现的不连贯性或物体的自发出现。
我们相信,Sora 今天所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人类的强大模拟器的一条有希望的道路。