超越Sora核心组件Dit的北京大学字节开放图像生成新范式，不再预测下一个token

新闻公告

< 返回新闻公共列表

超越Sora核心组件Dit的北京大学字节开放图像生成新范式，不再预测下一个token

发布时间：2024-04-16 09:38:29

声明：本文来自微信公众号“量子位”（ID:QbitAI），作者:关注前沿科技，授权站长之家转载发布。

北大与字节联手做了个大的：

提出图像生成新范式，从预测下一个token变成下一个token预测下一级分辨率，超越Sora核心组件Diffusion的效果 Transformer（DiT）。

而且代码开源，短短几天就赢得了1.3k标星，登上了GitHub趋势榜。

具体的效果是什么？

在实验数据中，这个名字叫做VAR（Visual Autoregressive Modeling）不仅图像生成质量超过Dit等传统SOTA的新方法，推理速度也提高了20+倍。

这也是自回归模型首次在图像生成领域击败Dit。

直观感觉上，话不多说，直接看图片:

值得一提的是，研究人员还在VAR上观察到大语言模型的Scaling Laws和零样本任务泛化。

在线论文代码引发了许多专业讨论。

一些网民说他们很惊讶，突然觉得其他扩散架构的论文有点无聊。

其他人则认为，这是一种更便宜的通往Sora的潜在方式，计算成本可以降低一个甚至多个数量级。

预测下一级分辨率

简单来说，VAR的核心创新就是用预测下一级分辨率，替代了预测下一个token传统的自回归方法。

VAR训练分为两个阶段。

第一在这个阶段，VAR引入了多尺度的离散，用VQ-VAE将连续图像编码成一系列离散的token map，每一个token map有不同的分辨率。

第二阶段主要是VAR 通过预测更高分辨率的图像，Transformer的训练可以进一步优化模型。具体流程如下:

从最低分辨率(如1×1)token map开始预测下一级分辨率(例如4×4)完整的token map，并以此类推，直到生成最高token的分辨率 map(比如256×256)。预测每个尺度的token 在map中，基于transformer的模型将考虑之前所有步骤生成的映射信息。

VQ-VAE模型在第二阶段发挥了重要作用：为VAR提供了“参考答案”。这有助于VAR更准确地学习和预测图像。

此外，VAR是并行预测所有位置的token，而不是线性预测，大大提高了生成效率。

研究人员指出，VAR更符合人类视觉感知从整体到局部的特点，并能保留图像的局部空间。

符合Scaling Laws

从实验结果来看，VAR在图像生成质量、推理速度、数据效率和可扩展性等方面都超过了DIT。

Imagenet256×VAR将FID从18.65降至1.8，IS从80.4升至356.4，显著改善了自回归模型基线。

注：FID越低，生成图像的质量和多样性就越接近真实图像。

在推理速度方面，与传统的自回归模型相比，VAR的效率提高了20倍左右。Dit消耗的时间是VAR的45倍。

在数据效率方面，VAR只需要350个训练周期（epoch），远远少于DiT-XL/2的1400个。

在可扩展性方面，研究人员观察到VAR有类似于大语言模型的Scaling Laws:伴随着模型尺寸和计算资源的增加，模型性能不断提高。

此外，VAR在图像修复、扩展和编辑等下游任务的零样本评估中表现出了出色的泛化能力。

在GitHub仓库中，推理示例，demo、模型权重和训练代码已经上线。

然而，在更多的讨论中，一些网民提出了一些问题：

VAR不如扩散模型灵活，分辨率存在扩展问题。

联合生产北大字节

VAR的作者来自字节跳动AI 北大王立威团队Lab和Lab。

本科毕业于北航的田柯宇，目前是北京大学CS研究生，师从北京大学信息科学技术学院教授王立伟。2021年开始字节AI Lab实习。

论文通讯作者是字节跳动AI Lab研究员袁泽环和王立威。

袁泽环于2017年博士毕业于南京大学，目前专注于计算机视觉和机器学习。王立伟从事机器学习研究20多年，是首届“优秀青年”获得者。

项目负责人是字节跳动广告生成人工智能研究负责人Yi jiang。他毕业于浙江大学，目前的研究重点是视觉基础模型、深度生成模型和大语言模型。

参考链接:

[1]论文:https://arxiv.org/abs/2404.02905

[2]项目主页：https://github.com/FoundationVision/VAR

关于我们

新闻公告