您现在的位置是:知识 >>正文
开源多模态LLM InternVL 1.5:具备OCR能力 可解读4K图片
知识238人已围观
简介划重点:⭐️ InternVL 家族是一个开源套件,为商用多模态模型提供了可行的开源替代方案⭐️ InternVL-Chat-V1.5发布,接近 GPT-4V 和 Gemini Pro 在各种基准测试 ...
划重点:
⭐️ InternVL 家族是开源一个开源套件,为商用多模态模型提供了可行的多模开源替代方案
⭐️ InternVL-Chat-V1.5发布,接近 GPT-4V 和 Gemini Pro 在各种基准测试上的态LK图性能
⭐️ InternVL 的模型可用于视觉感知、跨模态检索等多个领域,具备解读实现了多项技术突破
CSS站长资源(ChinaZ.com) 4月29日 消息:InternVL 家族的开源开源套件提供了一种商用多模态模型的可行开源替代方案。其中,多模最新发布的态LK图 InternVL-Chat-V1.5模型在多个基准测试上取得了接近 GPT-4V 和 Gemini Pro 的性能,这使得 InternVL 家族成为了当前最接近 GPT-4V 表现的具备解读可商用开源模型之一。
InternVL 家族的开源模型涵盖了多个领域,包括视觉感知和跨模态检索。多模其在视觉感知方面,态LK图利用 ViT-22B 模型在 ImageNet-1K、具备解读ImageNet-Real、开源ImageNet-V2等数据集上取得了优异表现,多模展现出强大的态LK图图像分类能力。另外,InternVL 家族还在语义分割、零样本图像分类等任务上取得了显著进展,为多模态模型的发展贡献了重要的技术突破。
作为一款人工智能产品,InternVL 家族的亮点在于其开源套件的多模态模型,尤其是最新发布的 InternVL-Chat-V1.5。该模型不仅在性能上接近商用顶尖模型,而且还具备强大的多模态对话能力,并且支持中文,拥有较强的 OCR 能力。
除此之外,InternVL 家族的模型还具备动态分辨率的支持,为用户提供更加灵活的使用体验。InternVL 家族的开源套件为多模态模型领域的发展注入了新的活力。
产品入口:https://top.aibase.com/tool/internvl
体验网址:https://huggingface.co/spaces/OpenGVLab/InternVL
Tags:
相关文章
上海浦东机场恢复网约车运营服务:2月4日起可通过各平台预约用车
知识快科技2月4日消息,据上海发布官微消息,2月4日起恢复浦东机场区域内网约车运营服务,市民乘客可通过各网约车平台在浦东机场区域内预约用车。以下为全文:根据广大市民乘客的建议,@上海交通 决定,从2月4日 ...
【知识】
阅读更多确认!已有 116 个 AI 大模型通过国家备案
知识划重点:📝 国家互联网信息办公室发布《生成式人工智能服务已备案信息的公告》。📝116个 AI 大模型通过备案确认,意味着它们已符合相关规范并可在中国境内合法应用。📝 生成式人工智能应用或功能上线后需公 ...
【知识】
阅读更多雷军抖音直播上热搜:驾驶小米SU7登场 瞬间人气破十万
知识CSS站长资源(ChinaZ.com) 4月18日 消息:今天下午4点整,备受期待的小米公司创始人雷军准时在抖音平台开启了一场直播盛宴。随着直播画面的展开,北京小米汽车制造厂的背景映入眼帘,为观众带来 ...
【知识】
阅读更多