输入“/”快速插入内容

北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

2024年8月12日修改

网友：通向 Sora 的更便宜的潜在途径

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

北大和字节联手搞了个大的：

提出图像生成新范式，从预测下一个 token 变成预测下一级分辨率，效果超越 Sora 核心组件 Diffusion Transformer（DiT）。​

并且代码开源，短短几天已经揽下 1.3k 标星，登上 GitHub 趋势榜。​

具体是个什么效果？

实验数据上，这个名为 VAR（Visual Autoregressive Modeling）的新方法不仅图像生成质量超过 DiT 等传统 SOTA，推理速度也提高了 20 + 倍。​

这也是自回归模型首次在图像生成领域击败 DiT。

直观感受上，话不多说，直接看图：

值得一提的是，研究人员还在 VAR 上，观察到了大语言模型同款的 Scaling Laws 和零样本任务泛化。​

论文代码上线，已经引发不少专业讨论。

有网友表示有被惊到，顿时觉得其他扩散架构的论文有点索然无味。​

还有人认为，这是一种通向 Sora 的更便宜的潜在途径，计算成本可降低一个乃至多个数量级。​

简单来说，VAR 的核心创新，就是用预测下一级分辨率，替代了预测下一个 token 的传统自回归方法。​

北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token​