输入“/”快速插入内容

北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token

2024年8月12日修改
网友:通向 Sora 的更便宜的潜在途径
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
北大和字节联手搞了个大的:
提出图像生成新范式,从预测下一个 token 变成预测下一级分辨率,效果超越 Sora 核心组件 Diffusion Transformer(DiT)。
并且代码开源,短短几天已经揽下 1.3k 标星,登上 GitHub 趋势榜。
具体是个什么效果?
实验数据上,这个名为 VAR(Visual Autoregressive Modeling)的新方法不仅图像生成质量超过 DiT 等传统 SOTA,推理速度也提高了 20 + 倍
这也是自回归模型首次在图像生成领域击败 DiT。
直观感受上,话不多说,直接看图:
值得一提的是,研究人员还在 VAR 上,观察到了大语言模型同款的 Scaling Laws 和零样本任务泛化。
论文代码上线,已经引发不少专业讨论。
有网友表示有被惊到,顿时觉得其他扩散架构的论文有点索然无味。
还有人认为,这是一种通向 Sora 的更便宜的潜在途径,计算成本可降低一个乃至多个数量级。
简单来说,VAR 的核心创新,就是用预测下一级分辨率,替代了预测下一个 token 的传统自回归方法。