输入“/”快速插入内容

SORA

2024年4月11日修改
我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。
本技术报告重点关注(1)我们将所有类型的视觉数据转化为统一表示的方法,从而能够大规模训练生成模型,以及(2)对 Sora 的能力和局限性进行定性评估。本报告不包含模型和实施细节。
许多先前的工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、(1 ,)(2 ,)(3)生成对抗网络,(4 ,)(5 ,)(6 ,)(7)自回归变压器,(8 ,)(9)和扩散模型。(10 ,)(11、)(12)这些作品通常关注一小类视觉数据、较短的视频或固定大小的视频。 Sora 是视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,最多可达一分钟的高清视频。
将视觉数据转化为补丁
我们从大型语言模型中获得灵感,这些模型通过互联网规模数据的训练来获得通用能力。(13、)(14)LLM 范式的成功部分归功于令牌的使用, 这些令牌优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中,我们考虑视觉数据的生成模型如何继承这些好处。 LLM 有文本标记,而 Sora 有视觉补丁。此前,补丁已被证明是视觉数据模型的有效表示。(15 ,)(16 ,)(17、)(18)我们发现补丁是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。
在较高的层次上,我们首先将视频压缩到较低维的潜在空间,将视频转换为补丁,(19)然后将表示分解为时空补丁。
视频压缩网络
我们训练一个降低视觉数据维度的网络。(20)该网络将原始视频作为输入并输出在时间和空间上压缩的潜在表示。 Sora 在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了相应的解码器模型,将生成的潜伏映射回像素空间。
时空潜伏斑块
给定一个压缩的输入视频,我们提取一系列时空补丁,充当变压器令牌。该方案也适用于图像,因为图像只是具有单帧的视频。我们基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。
用于视频生成的缩放变压器
Sora是一个扩散模型(21、)(22、)(23、)(24、)(25);给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的“干净”补丁。重要的是,Sora 是一个扩散变压器。(26)Transformer 在各个领域都表现出了卓越的扩展特性,包括语言建模、(13、)(14)计算机视觉,(15 ,)(16 ,)(17、)(18)和图像生成。(27、)(28 ,)(29)
这项工作中,我们发现扩散变压器也可以有效地缩放为视频模型。下面,我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。
33%
33%
33%
可变的持续时间、分辨率、宽高比
过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,例如,分辨率为 256x256 的 4 秒视频。我们发现,对原始大小的数据进行训练有几个好处。