“依托 Google 搜索进行接地”功能现已推出！了解详情

此页面由 Cloud Translation API 翻译。

Gemini 模型

1.5 Flash

我们最平衡的多模态模型，适用于大多数任务，并且性能出色

输入音频、图片、视频和文本，获取文本回复
生成代码、提取数据、编辑文本等
最适合需要平衡性能和费用的任务

1.5 Flash-8B

最快、最具成本效益的多模态模型，适用于高频率任务，具有出色的性能

输入音频、图片、视频和文本，获取文本回复
生成代码、提取数据、编辑文本等
最适合低智能、高频率任务

1.5 Pro

效果最佳的多模态模型，具有适用于各种推理任务的功能

输入音频、图片、视频和文本，获取文本回复
生成代码、提取数据、编辑文本等
适用于需要提升广告效果时

模型变体

Gemini API 提供了针对特定用例进行了优化的不同模型。下面简要介绍了可用的 Gemini 变体：

模型变体	输入	输出	优化目标
Gemini 1.5 Flash `gemini-1.5-flash`	音频、图片、视频和文本	文本	在各种任务中提供快速、多样化的性能
Gemini 1.5 Flash-8B `gemini-1.5-flash-8b`	音频、图片、视频和文本	文本	量大且智能程度较低的任务
Gemini 1.5 Pro `gemini-1.5-pro`	音频、图片、视频和文本	文本	需要更多智能的复杂推理任务
Gemini 1.0 Pro（将于 2025 年 2 月 15 日弃用） `gemini-1.0-pro`	文本	文本	自然语言任务、多轮文本和代码聊天以及代码生成
文本嵌入 `text-embedding-004`	文本	文本嵌入	衡量文本字符串的相关性
AQA `aqa`	文本	文本	提供基于来源的回答

Gemini 1.5 Flash

Gemini 1.5 Flash 是一款快速且多才多艺的多模态模型，可跨多种任务进行扩缩。

在 AI Studio 中试用

模型详情

属性	说明
模型代码	`models/gemini-1.5-flash`
支持的数据类型	输入源音频、图片、视频和文本输出文本
令牌限制^[*]	输入令牌限制 1,048,576 输出令牌限制 8192
音频/视觉规范	每个问题的图片数量上限 3,600 视频时长上限 1 小时音频时长上限大约 9.5 小时
速率限制^[**]	免费： 15 RPM 100 万个 TPM 1,500 RPM Pay-as-you-go:： 2,000 RPM 400 万个 TPM
功能	系统指令支持 JSON 模式支持 JSON 架构支持可调整的安全设置支持缓存支持调音支持函数调用支持代码执行支持
版本	如需了解详情，请参阅模型版本模式。最新电子邮件的接收日期：`gemini-1.5-flash-latest` 最新稳定版：`gemini-1.5-flash` 稳定： `gemini-1.5-flash-001` `gemini-1.5-flash-002` 实验性： `gemini-1.5-flash-8b-exp-0924` `gemini-1.5-flash-8b-exp-0827` `gemini-1.5-flash-exp-0827`
最新更新	2024 年 9 月

Gemini 1.5 Flash-8B

Gemini 1.5 Flash-8B 是一款小型模型，专为处理智能程度较低的任务而设计。

在 AI Studio 中试用

模型详情

属性	说明
模型代码	`models/gemini-1.5-flash-8b`
支持的数据类型	输入源音频、图片、视频和文本输出文本
令牌限制^[*]	输入令牌限制 1,048,576 输出令牌限制 8192
音频/视觉规范	每个问题的图片数量上限 3,600 视频时长上限 1 小时音频时长上限大约 9.5 小时
速率限制^[**]	免费： 15 RPM 100 万个 TPM 1,500 RPM Pay-as-you-go:： 4,000 RPM 400 万个 TPM
功能	系统指令支持 JSON 模式支持 JSON 架构支持可调整的安全设置支持缓存支持调音支持函数调用支持代码执行支持
版本	如需了解详情，请参阅模型版本模式。最新电子邮件的接收日期：`gemini-1.5-flash-8b-latest` 最新稳定版：`gemini-1.5-flash-8b` 稳定： `gemini-1.5-flash-8b-001`
最新更新	2024 年 10 月

Gemini 1.5 Pro

Gemini 1.5 Pro 是一款中型多模态模型，经过优化，可处理各种推理任务。1.5 Pro 可以一次处理大量数据，包括 2 小时的视频、19 小时的音频、6 万行代码的代码库或 2,000 页的文本。

在 AI Studio 中试用

模型详情

属性	说明
模型代码	`models/gemini-1.5-pro`
支持的数据类型	输入源音频、图片、视频和文本输出文本
令牌限制^[*]	输入令牌限制 2,097,152 输出令牌限制 8192
音频/视觉规范	每个问题的图片数量上限 7,200 视频时长上限 2 小时音频时长上限大约 19 小时
速率限制^[**]	免费： 2 RPM 32,000 TPM 50 罗马尼亚列伊 Pay-as-you-go:： 1,000 RPM 400 万个 TPM
功能	系统指令支持 JSON 模式支持 JSON 架构支持可调整的安全设置支持缓存支持调音不受支持函数调用支持代码执行支持
版本	如需了解详情，请参阅模型版本模式。最新电子邮件的接收日期：`gemini-1.5-pro-latest` 最新稳定版：`gemini-1.5-pro` 稳定： `gemini-1.5-pro-001` `gemini-1.5-pro-002` 实验性： `gemini-1.5-pro-exp-0827`
最新更新	2024 年 9 月

Gemini 1.0 Pro（已废弃）

Gemini 1.0 Pro 是一个 NLP 模型，可处理多轮文本和代码聊天以及代码生成等任务。

在 AI Studio 中试用

模型详情

属性	说明
模型代码	`models/gemini-1.0-pro`
支持的数据类型	输入文本输出文本
速率限制^[**]	免费： 15 RPM 32,000 TPM 1,500 RPM Pay-as-you-go:： 360 RPM 120,000 TPM 30,000 RPD
功能	系统指令不受支持 JSON 模式不受支持 JSON 架构不受支持可调节的安全设置支持缓存不受支持调音支持函数调用支持函数调用配置不受支持代码执行不受支持
版本	最新电子邮件的接收日期：`gemini-1.0-pro-latest` 最新稳定版：`gemini-1.0-pro` 稳定：`gemini-1.0-pro-001`
最新更新	2024 年 2 月

注意： gemini-pro 是 gemini-1.0-pro 的别名。

文本嵌入和嵌入

文本嵌入

文本嵌入用于衡量字符串的相关性，在许多 AI 应用中都得到了广泛的应用。

在标准 MTEB 嵌入基准测试中，text-embedding-004 在具有类似维度的模型中实现了更出色的检索性能，并且优于现有模型。

模型详情

属性	说明
模型代码	Gemini API `models/text-embedding-004`
支持的数据类型	输入文本输出文本嵌入
令牌限制^[*]	输入令牌限制 2048 输出维度大小 768
速率限制^[**]	每分钟 1,500 个请求
可调整的安全设置	不受支持
最新更新	2024 年 4 月

嵌入

您可以使用嵌入模型为输入文本生成文本嵌入。

该嵌入模型经过优化，可为最多 2,048 个令牌的文本创建 768 维的嵌入。

嵌入模型详情

属性	说明
模型代码	`models/embedding-001`
支持的数据类型	输入文本输出文本嵌入
令牌限制^[*]	输入令牌限制 2048 输出维度大小 768
速率限制^[**]	每分钟 1,500 个请求
可调整的安全设置	不受支持
最新更新	2023 年 12 月

AQA

您可以使用 AQA 模型对文档、语料库或一组段落执行归因式问答 (AQA) 相关任务。AQA 模型会返回基于提供的来源对问题的回答，并估算可回答的概率。

模型详情

属性	说明
模型代码	`models/aqa`
支持的数据类型	输入文本输出文本
支持的语言	英语
令牌限制^[*]	输入令牌限制 7168 输出令牌限制 1024
速率限制^[**]	每分钟 1,500 个请求
可调整的安全设置	支持
最新更新	2023 年 12 月

请参阅示例，探索这些模型变体的功能。

[*] 对于 Gemini 模型，一个令牌相当于大约 4 个字符。100 个词元大约相当于 60-80 个英语单词。

[**] RPM：每分钟的请求数
TPM：每分钟的令牌数
RPD：每天的请求数
TPD：每天的令牌数

由于容量限制，我们无法保证指定的最大速率限制。

模型版本名称模式

Gemini 模型有预览版和稳定版两种版本。在代码中，您可以使用以下任一模型名称格式来指定要使用的模型和版本。

最新：指向指定生成和变体的尖端模型版本。底层模型会定期更新，并且可能是预览版。只有探索性测试应用和原型才应使用此别名。

如需指定最新版本，请使用以下格式：<model>-<generation>-<variation>-latest。例如 gemini-1.0-pro-latest。
最新稳定版：指向为指定的模型生成和变体发布的最新稳定版。

如需指定最新的稳定版本，请使用以下模式：<model>-<generation>-<variation>。例如 gemini-1.0-pro。
稳定：指向特定的稳定模型。稳定模型不会发生变化。大多数正式版应用都应使用特定的稳定型号。

如需指定稳定版本，请使用以下模式：<model>-<generation>-<variation>-<version>。例如 gemini-1.0-pro-001。
实验性：指预览版中提供的实验性模型（如条款中所定义），这意味着该模型不适用于生产环境。我们发布实验性模型是为了收集反馈、快速将最新动态交到开发者手中，并突出展示 Google 的创新步伐。我们会根据实验性发布的结果，决定如何更广泛地发布模型。我们可能会在不另行通知的情况下将实验性模型换成其他模型。我们不保证实验性模型将来会成为稳定性模型。

如需指定实验性版本，请使用以下格式：<model>-<generation>-<variation>-<version>。例如 gemini-1.5-pro-exp-0827。

支持的语言

Gemini 模型经过训练，可处理以下语言：

阿拉伯语 (ar)
孟加拉语 (bn)
保加利亚语 (bg)
简体中文和繁体中文 (zh)
克罗地亚语 (hr)
捷克语 (cs)
丹麦语 (da)
荷兰语 (nl)
英语 (en)
爱沙尼亚语 (et)
芬兰语 (fi)
法语 (fr)
德语 (de)
希腊语 (el)
希伯来语 (iw)
印地语 (hi)
匈牙利语 (hu)
印度尼西亚语 (id)
意大利语 (it)
日语 (ja)
韩语 (ko)
拉脱维亚语 (lv)
立陶宛语 (lt)
挪威语 (no)
波兰语 (pl)
葡萄牙语 (pt)
罗马尼亚语 (ro)
俄语 (ru)
塞尔维亚语 (sr)
斯洛伐克语 (sk)
斯洛维尼亚语 (sl)
西班牙语 (es)
斯瓦希里语 (sw)
瑞典语 (sv)
泰语 (th)
土耳其语 (tr)
乌克兰语 (uk)
越南语 (vi)