Sora的前世今生：从文生图到文生视频

✍️

腾讯程序员腾讯技术工程 2024-02-22 17:28 广东

原文地址：https://mp.weixin.qq.com/s/dIAUwc33IZMid9gVB5uTJg

作者：monychen

在2月16日凌晨，OpenAI首款文本生成视频模型Sora正式亮相，迅速在网络上引发广泛关注。对于Sora背后的技术原理，网络上已经充斥着各种分析和猜测，其中大多数分析都是从技术报告入手，对于普通读者来说难度相对较高。为了使技术原理更加通俗易懂，本文将从文本生成图像到文本生成视频的技术演进角度进行剖析，解读从AE、VAE、DDPM、LDM到DiT和Sora的技术发展路线，旨在为读者提供一条清晰简明的技术进化路径。

1.背景

最近AI圈内乃至整个科技圈最爆的新闻莫过于OpenAI的Sora了，感觉热度甚至远超之前ChatGPT发布时的热度。OpenAI也是放出了Sora的技术报告（有一定的信息量，也留下了大量的想象空间）。

技术报告传送门： https://openai.com/research/video-generation-models-as-world-simulators

今天就来尝试聊一下Sora的前世今生，欢迎交流讨论批评指正！

无论是文生图还是文生视频，很多这方面的工作其实都可以看成是自编码器的进阶版本，让我们从自编码器开始入手。

自编码器（Autoencoder）：压缩大于生成

自编码器由编码器和解码器两个部分构成

编码器负责学习输入到编码的映射

，将高维输入（例如图片）转化为低维编码

附件不支持打印

解码器则学习编码到输出的映射

，将这些低维编码还原为高维输出（例如重构的图片）

附件不支持打印

加载失败，

Sora的前世今生：从文生图到文生视频​

Sora的前世今生：从文生图到文生视频