您现在的位置是:自媒体 >>正文
开源世界模型LWM :百万级上下文,长视频理解超GPT-4
自媒体5人已围观
简介划重点:⭐️ UC 伯克利研究人员开源首个世界模型,具有百万级上下文处理能力。⭐️ 该模型在多模态任务中表现出色,长视频理解效果优于 GPT-4V 和 Gemini Pro。⭐️ LWM 系列模型在 ...
划重点:
⭐️ UC 伯克利研究人员开源首个世界模型,开源具有百万级上下文处理能力。世界上下视频
⭐️ 该模型在多模态任务中表现出色,模型长视频理解效果优于 GPT-4V 和 Gemini Pro。文长
⭐️ LWM 系列模型在 GitHub 上受到广泛关注,理解开发者积极参与并获得高星数。开源
CSS站长资源(ChinaZ.com)4月4日 消息:来自加州大学伯克利分校的世界上下视频研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。模型这一模型采用了大量视频和书籍数据集,文长通过 RingAttention 技术实现了长序列的理解可扩展训练,使得模型的开源上下文长度达到了1M token。
在实验中,世界上下视频LWM 系列模型展现出了优异的模型多模态性能,在文本图像生成、文长文本视频生成以及基于图像的理解对话等任务中表现出色。
研究人员指出,LWM 系列模型的多模态能力优于目前商业模型 GPT-4V 和 Gemini Pro,在处理超长视频理解方面尤为出色。更令人振奋的是,LWM 是一款开源模型,基于 Llama27B,受到了开发者们的热烈欢迎,仅在不到两周的时间里,就在 GitHub 上获得了超过6.2k 的 star。
该模型的训练过程分为两个阶段,首先是上下文扩展阶段,主要利用 Books3数据集将上下文长度从32K 扩展到1M。第二阶段是视觉语言培训,通过联合训练长视频和语言序列,提高模型在多模态任务中的表现。研究人员还对不同长度的文本和视频数据进行了逐步训练,并在模型设计和训练过程中做出了相应调整和优化。
这一开源的世界模型展示了强大的多模态处理能力,为相关领域的研究和开发提供了重要参考。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与,为人工智能领域的进步和创新带来了新的契机。
论文地址:https://arxiv.org/pdf/2402.08268.pdf
项目入口:https://github.com/LargeWorldModel/LWM
Tags:
相关文章
BlipCut AI视频生成器官网体验入口 AI文字生成真实视频在线使用地址
自媒体BlipCut AI视频生成器是一款强大的工具,利用AI技术通过文字描述在Discord上免费生成真实逼真的视频。它拥有简洁的界面,用户只需在Discord的指定频道输入命令,即可将视频文本描述转化为 ...
【自媒体】
阅读更多刘亦菲穿白丝小黑裙巴黎看秀:用的竟是“绝版”麒麟神机华为Mate X2
自媒体快科技3月6日消息,今日,演员刘亦菲在巴黎时装周看秀的照片火遍各大社交平台,刘亦菲身穿LV2024春夏系列小黑裙,并巧妙地搭配了白丝和黑白条纹宽檐帽,造型十分俏皮、活泼。在大秀现场,有眼尖的网友发现, ...
【自媒体】
阅读更多抖音推出全新AI社交产品“话炉” 能陪你闲扯还能讲故事、猜谜语
自媒体CSS站长资源ChinaZ.com)3月6日 消息:据Tech星球的报道,抖音再次推出了全新的社交产品“话炉”,这次加入了AI的元素。继多闪、飞聊之后,抖音再次在社交领域发力。“话炉”是一款基于字节旗 ...
【自媒体】
阅读更多