您现在的位置是：资讯 >>正文

谷歌发布开源视觉语言模型PaliGemma 支持多视觉语言任务

资讯9274人已围观

简介CSS站长资源ChinaZ.com）5月17日消息:谷歌推出了一款名为PaliGemma的开源视觉语言模型，该模型结合了图像处理和语言理解的能力，旨在支持多种视觉语言任务，如图像和短视频字幕生成、视 ...

谷歌发布开源视觉语言模型PaliGemma 支持多视觉语言任务

CSS站长资源（ChinaZ.com）5月17日消息:谷歌推出了一款名为PaliGemma的谷歌开源视觉语言模型，该模型结合了图像处理和语言理解的发布能力，旨在支持多种视觉语言任务，开源如图像和短视频字幕生成、视觉视觉视觉问答、语言语图像文本理解、模型物体检测、持多文件图表解读以及图像分割等。任务

PaliGemma的谷歌关键特点:

多任务支持:PaliGemma能够处理多种视觉语言相关的任务，提供广泛的发布应用场景。
参数规模:该模型包含30亿（3B）个参数，开源是视觉视觉一个大型的多模态模型。
模型架构:PaliGemma结合了SigLiP视觉编码器和Gemma语言模型，语言语分别负责处理图像和文本输入。模型

SigLiP视觉编码器:

负责处理图像输入，持多将视觉信息编码为模型能够理解的格式。

Gemma语言模型:

负责处理文本输入，并生成输出，将图像内容与语言任务结合起来。

PaliGemma的发布是谷歌在AI领域的又一项重要贡献，它不仅推动了视觉语言理解技术的发展，也为研究人员和开发者提供了强大的工具，以探索和创造新的应用。开源的特性意味着PaliGemma可以被社区广泛地使用、改进和集成到各种产品和服务中。

模型地址：https://huggingface.co/blog/paligemma

Tags：

上一篇：苹果高通调制解调器专利授权协议延长两年至2027年3月

下一篇：苹果发布Vision Pro耳机安全补丁修复潜在黑客利用漏洞

相关文章

击败OpenAI，权重、数据、代码全开源，能完美复现的嵌入模型Nomic Embed来了
资讯
模型参数量只有137M，5天就能训练好。一周前，OpenAI 给广大用户发放福利，在下场修复 GPT-4变懒的问题后，还顺道上新了5个新模型，其中就包括更小且高效的 text-embedding-3- ...

2024-07-06 18:10【资讯】
阅读更多
小米SU7将瞄准中国2000万小米手机高端用户：最快第二季度交付
资讯
快科技2月26日消息，今日，小米卢伟冰参加了巴塞罗那举办的2024 MWC世界移动通信大会）。大会上小米14 Ultra、小米14等旗舰手机举行了全球发布会。且一辆海湾蓝配色的小米SU7也亮相于此。期 ...

2024-07-06 17:52【资讯】
阅读更多
东风本田新能源品牌！灵悉L量产版谍照曝光：近期有望发布
资讯
快科技2月26日消息，东风本田官方今日发布了灵悉L量产版车型的谍照视频。作为东风本田正式发布全新新能源汽车品牌，灵悉L量产版有望在近期正式发布。从外观上看，新车将采用封闭式的设计，两侧大灯组内部的LE ...

2024-07-06 16:27【资讯】
阅读更多

热门文章

最新文章

友情链接