Sora的前世今生:从文生图到文生视频

✍️
腾讯程序员 腾讯技术工程 2024-02-22 17:28 广东
作者:monychen
在2月16日凌晨,OpenAI首款文本生成视频模型Sora正式亮相,迅速在网络上引发广泛关注。对于Sora背后的技术原理,网络上已经充斥着各种分析和猜测,其中大多数分析都是从技术报告入手,对于普通读者来说难度相对较高。为了使技术原理更加通俗易懂,本文将从文本生成图像到文本生成视频的技术演进角度进行剖析,解读从AE、VAE、DDPM、LDM到DiT和Sora的技术发展路线,旨在为读者提供一条清晰简明的技术进化路径。
1.背景
最近AI圈内乃至整个科技圈最爆的新闻莫过于OpenAI的Sora了,感觉热度甚至远超之前ChatGPT发布时的热度。OpenAI也是放出了Sora的技术报告(有一定的信息量,也留下了大量的想象空间)。
今天就来尝试聊一下Sora的前世今生,欢迎交流讨论批评指正!
无论是文生图还是文生视频,很多这方面的工作其实都可以看成是自编码器的进阶版本,让我们从自编码器开始入手。
自编码器(Autoencoder):压缩大于生成
自编码器由编码器和解码器两个部分构成
编码器负责学习输入到编码的映射
,将高维输入(例如图片)转化为低维编码
附件不支持打印

解码器则学习编码到输出的映射
,将这些低维编码还原为高维输出(例如重构的图片)
附件不支持打印

附件不支持打印

加载失败,