您现在的位置是:业界 >>正文
北大发布新图像生成框架VAR 推理速度提高20倍
业界672人已围观
简介CSS站长资源ChinaZ.com)4月8日 消息:北京大学最近发布了一种新的图像生成框架,名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer,同时展 ...
CSS站长资源(ChinaZ.com)4月8日 消息:北京大学最近发布了一种新的北大倍图像生成框架,名为VAR。发布这一突破性的新图像生技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer,同时展现出了与大语言模型观察到的成框类似Scaling laws的规律。
VAR,推理提高即视觉自回归模型,速度是北大倍一种新的图像生成范式。它将自回归学习重新定义为从粗到细的发布"下一尺度预测"或"下一分辨率预测",这与标准的新图像生光栅扫描"下一token预测"有所不同。这种简单直观的成框方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力。
项目地址:https://github.com/FoundationVision/VAR
在ImageNet256x256基准上,推理提高VAR将FID从18.65大幅提升到1.80,速度IS从80.4提升到356.4,北大倍推理速度提高了20倍。发布这一结果实证验证了VAR在多个维度包括图像质量、新图像生推理速度、数据效率和可扩展性上都优于Diffusion Transformer。
随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。
这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。
VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。
Tags:
相关文章
GenEM:利用大语言模型实现机器人行为的生成表达
业界**划重点:**- 🤖 **挑战与需求:** 人机交互领域存在着许多挑战,其中之一是使机器人展示类似于人类的表达行为,特别是在多样化社交情境中。- 🔄 **传统方法的限制:** 传统的基于规则和基于数 ...
【业界】
阅读更多顾客正泡温泉发现自己入镜直播间 律师建议顾客维权
业界4月15日消息,据国内多家媒体报道,近日有温泉度假村为了吸引游客,在顾客不知情的情况下,把游客们正在泡温泉的画面进行直播。对此,律师表示,顾客可以通过维权保护自己。律师指出,按照规定,民事主体的人格权 ...
【业界】
阅读更多全国多地网友抢先预订华为Pura 70!华为Mate之父李小龙:就要来了
业界快科技4月16日消息,日前,华为宣布P系列正式更名华为Pura”,新款手机将被命名为华为Pura70”。15日深夜,华为Mate系列之父、华为终端BG CTO李小龙转发华为Pura70预热视频时表示: ...
【业界】
阅读更多