站长之家(ChinaZ.com)4月15日 消息:人工智能在北京大学和字节跳动 Lab联合提出了一种新的图像生成范式——VAR(Visual Autoregressive Modeling),这种新方法的核心是预测下一级分辨率,而不是传统的预测下一个token。VAR的提议不仅在图像生成质量上超过了Sora的核心组件Difusion Transformer(DiT),而且推理速度也提高了20倍以上。这一结果已经在GitHub上开源,迅速获得1.3k标星,并登上GitHub趋势榜。
项目地址:https://github.com/FoundationVision/VAR
论文:https://arxiv.org/abs/2404.02905
VAR的工作流程分为两个阶段。第一在这个阶段,VAR引入了多尺度的离散,通过VQ-VAE将连续图像编码成不同分辨率的离散token map。
第二阶段,VAR Transformer通过预测更高分辨率的图像来进一步优化模型。具体来说,模型最低token的分辨率 map开始,逐渐预测更高分辨率的完整token map,直至生成最高图像的分辨率。
在此过程中,模型将综合考虑之前所有步骤生成的映射信息,以提高预测的准确性。与传统的自回归模型不同,VAR并行预测每个尺度的所有位置,显著提高了生成效率。
VAR的提议不仅在图像生成领域首次它击败了Dit,并在实验中显示了类似大语言模型的Scaling Laws和零样本任务泛化能力。Imagenet256×VAR将在256数据集上FID(Fréchet Inception Distance,从18.65降至1.8,IS(Inception Score,从80.4提高到356.4,测量图像多样性的指标,这些结果表明,VAR显著提高了图像生成的质量和多样性。此外,VAR只需要350个训练周期,远低于Dit-XL/2所需的1400个周期显示出更高的数据效率。
在GitHub上公布了VAR的研究成果,包括推理示例,demo、研究人员和开发人员使用和参考模型权重和培训代码。VAR的提出不仅给图像生成领域带来了新的研究方向和技术突破,也为未来的人工智能应用开辟了新的可能性。与此同时,VAR的开源也体现了学术界与工业界合作的积极成果,有助于促进整个AI领域的发展和创新。
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云