以辞害意网以辞害意网

谷歌宣布Gemini 1.5 Pro开放API 新增多项功能

谷歌宣布Gemini 1.5 Pro开放API 新增多项功能

CSS站长资源(ChinaZ.com)4月10日 消息:Google宣布开放其AI模型Gemini1.5Pro的谷歌功API,这一版本在原有基础上进行了大幅度的宣布新增功能扩展,现已在180多个国家提供。多项

Gemini1.5Pro引入了对原生音频(语音)的谷歌功理解能力,以及文件API和系统指令等新功能。宣布新增这使得Gemini模型能够直接处理音频输入,多项而无需先将音频转换为文本。谷歌功这为AI模型带来了全新的宣布新增应用可能性,如音频和视频模态的多项处理。

详情点此查看:

https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

音频理解能力:

https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb

Gemini1.5Pro大大扩展了输入模态的谷歌功范围,现在它不仅能理解文本,宣布新增还能理解音频(语音)。多项此外,谷歌功Gemini1.5Pro还可以对上传到Google AI Studio中的宣布新增视频进行图像(帧)和音频(语音)的同时推理,这意味着这个模型具备了理解和处理视频内容的多项能力,不仅限于视频的视觉部分(如图像帧),也包括音频部分(如对话、背景音乐等)。

这一改进的应用潜力巨大,包括多模态理解、内容索引和搜索、增强的交互体验、视频内容分析以及创意内容生成等方面。例如,通过综合分析视频中的视觉信息和音频信息,Gemini1.5Pro可以更全面地理解视频内容,从而帮助创建更详细的内容索引,使用户能够基于视频内容的视觉和听觉信息进行搜索。

此外,Gemini API也进行了一些重要的改进。比如,引入了系统指令引导模型响应,现已在Google AI Studio和Gemini API中提供。开发者可以通过定义角色、格式、目标和规则来指导模型的行为,以适应特定用例。同时,新的JSON模式指示模型仅输出JSON对象,该模式支持从文本或图像中提取结构化数据。

Google还推出了新的嵌入模型,性能得到了显著提升。从今天开始,开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型在MTEB基准测试中取得了更强的检索性能,超过了具有可比维度的所有现有模型。

赞(12553)
未经允许不得转载:>以辞害意网 » 谷歌宣布Gemini 1.5 Pro开放API 新增多项功能