您现在的位置是:资讯 >>正文
谷歌发布开源视觉语言模型PaliGemma 支持多视觉语言任务
资讯9274人已围观
简介CSS站长资源ChinaZ.com)5月17日 消息:谷歌推出了一款名为PaliGemma的开源视觉语言模型,该模型结合了图像处理和语言理解的能力,旨在支持多种视觉语言任务,如图像和短视频字幕生成、视 ...
CSS站长资源(ChinaZ.com)5月17日 消息:谷歌推出了一款名为PaliGemma的谷歌开源视觉语言模型,该模型结合了图像处理和语言理解的发布能力,旨在支持多种视觉语言任务,开源如图像和短视频字幕生成、视觉视觉视觉问答、语言语图像文本理解、模型物体检测、持多文件图表解读以及图像分割等。任务
PaliGemma的谷歌关键特点:
多任务支持:PaliGemma能够处理多种视觉语言相关的任务,提供广泛的发布应用场景。
参数规模:该模型包含30亿(3B)个参数,开源是视觉视觉一个大型的多模态模型。
模型架构:PaliGemma结合了SigLiP视觉编码器和Gemma语言模型,语言语分别负责处理图像和文本输入。模型
SigLiP视觉编码器:
负责处理图像输入,持多将视觉信息编码为模型能够理解的格式。
Gemma语言模型:
负责处理文本输入,并生成输出,将图像内容与语言任务结合起来。
PaliGemma的发布是谷歌在AI领域的又一项重要贡献,它不仅推动了视觉语言理解技术的发展,也为研究人员和开发者提供了强大的工具,以探索和创造新的应用。开源的特性意味着PaliGemma可以被社区广泛地使用、改进和集成到各种产品和服务中。
模型地址:https://huggingface.co/blog/paligemma
Tags:
相关文章
击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了
资讯模型参数量只有137M,5天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4变懒的问题后,还顺道上新了5个新模型,其中就包括更小且高效的 text-embedding-3- ...
【资讯】
阅读更多小米SU7将瞄准中国2000万小米手机高端用户:最快第二季度交付
资讯快科技2月26日消息,今日,小米卢伟冰参加了巴塞罗那举办的2024 MWC世界移动通信大会)。大会上小米14 Ultra、小米14等旗舰手机举行了全球发布会。且一辆海湾蓝配色的小米SU7也亮相于此。期 ...
【资讯】
阅读更多东风本田新能源品牌!灵悉L量产版谍照曝光:近期有望发布
资讯快科技2月26日消息,东风本田官方今日发布了灵悉L量产版车型的谍照视频。作为东风本田正式发布全新新能源汽车品牌,灵悉L量产版有望在近期正式发布。从外观上看,新车将采用封闭式的设计,两侧大灯组内部的LE ...
【资讯】
阅读更多