您现在的位置是：资讯 >>正文

北大字节提出图像生成新范式VAR 超越Sora核心组件DiT

资讯3686人已围观

简介CSS站长资源ChinaZ.com）4月15日消息:北大与字节跳动AI Lab联合提出了一种图像生成新范式——VARVisual Autoregressive Modeling），这一新方法的核心在 ...

CSS站长资源（ChinaZ.com）4月15日消息:北大与字节跳动AI Lab联合提出了一种图像生成新范式——VAR（Visual Autoregressive Modeling），字节组件这一新方法的提出图像核心在于预测下一级分辨率，而非传统的生成式预测下一个token。VAR的新范提出不仅在图像生成质量上超越了Sora的核心组件Diffusion Transformer(DiT)，而且在推理速度上也实现了20倍以上的核心提升。这一成果已经在GitHub上开源，字节组件迅速获得了1.3k的提出图像标星，并登上了GitHub趋势榜。生成式

项目地址:https://github.com/FoundationVision/VAR

论文:https://arxiv.org/abs/2404.02905

VAR的新范工作流程分为两个阶段。在第一阶段，核心VAR引入了多尺度离散表示，字节组件通过VQ-VAE将连续图像编码为不同分辨率的提出图像离散token map。

在第二阶段，生成式VAR Transformer通过预测更高分辨率的新范图像来进一步优化模型。具体来说，核心模型从最低分辨率的token map开始，逐步预测到更高分辨率的完整token map，直至生成最高分辨率的图像。

在这一过程中，模型会综合考虑之前所有步骤生成的映射信息，从而提高预测的准确性。与传统自回归模型不同，VAR在每个尺度内并行预测所有位置的token，这一特点显著提高了生成效率。

VAR的提出，不仅在图像生成领域首次击败了DiT，而且在实验中显示出了大语言模型类似的Scaling Laws和零样本任务泛化能力。在ImageNet256×256的数据集上，VAR将FID（Fréchet Inception Distance，一种衡量生成图像质量的指标）从18.65降到了1.8，IS(Inception Score，衡量生成图像多样性的指标)从80.4提高到了356.4，这些结果表明VAR在图像生成质量和多样性上都有显著提升。此外，VAR只需要350个训练周期，远少于DiT-XL/2所需的1400个周期，显示出更高的数据效率。

VAR的研究成果已经在GitHub上公开，包括推理示例、demo、模型权重和训练代码，供研究者和开发者使用和参考。VAR的提出，不仅为图像生成领域带来了新的研究方向和技术突破，也可能为未来的AI应用开辟新的可能性。同时，VAR的开源也体现了学术界与工业界合作的积极成果，有助于推动整个AI领域的发展和创新。

Tags：

上一篇：Mastercard推出新AI模型“Decision Intelligence Pro”以提升网络内欺诈检测

下一篇：今年冰冻预警发布！今冬寒潮来袭：冻伤记得挂烧伤科

从服装到更多产业创新，属于SHEIN们的繁花时代来了
资讯
20年前的珠三角，遍地代工厂。流水线，轰鸣的机器，工人们似乎永不停歇的双手，构成了当地一个又一个的制衣村、服装城。在时代浪潮的助推下，珠三角逐渐发展为著名的服装产业带，每一件衣服、每一只鞋，在确认没有 ...

2024-07-06 17:25【资讯】
阅读更多
贾玲片场减肥餐曝光：吃的是低脂荞麦面和水煮青菜
资讯
2月18日消息，据国内多家媒体报道，在电影《热辣滚烫》最新花絮中，贾玲首次曝光自己在片场吃的减肥餐。视频中显示，贾玲吃的是低脂荞麦面和水煮青菜。据悉，荞麦面中的主要成分是荞麦，它是一种低热量、低脂肪、 ...

2024-07-06 17:18【资讯】
阅读更多
追赶OpenAI的Sora：Meta开源V-JEPA，让AI学会认识世界！
资讯
就在Sora疯狂刷屏那天，还有两款重磅产品发布:一个是谷歌的Gemini1.5，首个支持100万tokens上下文的大模型;另外一个便是全球科技、社交巨头Meta的V-JEPA。有趣的是，在功能方面V ...

2024-07-06 16:53【资讯】
阅读更多

您现在的位置是：资讯 >>正文

北大字节提出图像生成新范式VAR 超越Sora核心组件DiT

相关文章

从服装到更多产业创新，属于SHEIN们的繁花时代来了

贾玲片场减肥餐曝光：吃的是低脂荞麦面和水煮青菜

追赶OpenAI的Sora：Meta开源V-JEPA，让AI学会认识世界！

热门文章

最新文章

友情链接