北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
2024年8月12日修改
网友:通向 Sora 的更便宜的潜在途径
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
北大和字节联手搞了个大的:
提出图像生成新范式,从预测下一个 token 变成预测下一级分辨率,效果超越 Sora 核心组件 Diffusion Transformer(DiT)。
并且代码开源,短短几天已经揽下 1.3k 标星,登上 GitHub 趋势榜。
附件不支持打印
具体是个什么效果?
实验数据上,这个名为 VAR(Visual Autoregressive Modeling)的新方法不仅图像生成质量超过 DiT 等传统 SOTA,推理速度也提高了 20 + 倍。
附件不支持打印