Gemini

Gemini 是一系列生成式 AI 模型,可让开发者生成内容和解决问题。这些模型经过设计和训练,可将文本和图片同时处理为输入。本指南提供了有关每个模型变体的信息,可帮助您确定哪个模型变体最契合您的用例。

安全和预期用途

生成式人工智能模型是功能强大的工具,但并非没有限制。其多功能性和适用性有时可能会导致意外输出,例如不准确、有偏见或冒犯性的输出。后期处理和严格的手动评估对于限制此类输出造成伤害的风险至关重要。如需了解更多安全使用建议,请参阅安全指南

Gemini API 提供的模型可用于各种生成式 AI 和自然语言处理 (NLP) 应用。您只能通过 Gemini API 或 Google AI Studio Web 应用使用这些函数。使用 Gemini API 时还必须遵守生成式 AI 使用限制政策Gemini API 服务条款

模型变体

Gemini API 提供了针对特定应用场景进行了优化的不同模型。下面简要介绍了可用的 Gemini 变体:

模型变体 输入 输出 优化目标
Gemini 1.5 Pro(预览版) 音频、图片和文字 文字 推理任务包括(但不限于)代码和文本生成、文本编辑、问题解决、数据提取和生成
Gemini 1.5 Flash(预览版) 音频、图片和文字 文字 快速灵活地处理各种任务
Gemini 1.0 Pro 文字 文字 自然语言任务、多轮文本和代码聊天以及代码生成
Gemini 1.0 Pro Vision 图片和文字 文字 针对视觉相关任务(例如生成图片说明或识别图片中的对象)进行了优化的性能
文本嵌入 文字 文本嵌入 生成高达 768 个维度的弹性文本嵌入,最多支持 2,048 个词元
嵌入 文字 文本嵌入 为不超过 2,048 个词元的文本生成具有 768 个维度的文本嵌入
AQA 文字 文字 针对提供的文本执行与问答相关的归因任务

下表介绍了所有模型变体共有的 Gemini 模型属性:

属性 说明
训练数据 Gemini 的知识截止日期为 2023 年初。 对于该时间之后的事件,相关知识会受到限制。
支持的语言 查看支持的语言
可配置的模型参数
  • 前 p
  • 前 k 个
  • 温度
  • 停止序列
  • 最大输出长度
  • 候选响应数量

如需了解其中每个参数的信息,请参阅生成模型指南的模型参数部分

Gemini 1.5 Pro(预览版)

Gemini 1.5 Pro 是一种中等大小的多模态模型,针对多种推理任务进行了优化,例如:

  • 代码生成
  • 文本生成
  • 文本编辑
  • 解决问题
  • 生成建议
  • 信息提取
  • 数据提取或生成
  • 创建 AI 代理

1.5 Pro 可以同时处理大量数据,包括 1 小时的视频、9.5 小时的音频、包含超过 3 万行代码或超过 70 万字的代码库。

1.5 Pro 能够处理零样本、单样本和少样本学习任务。

模型详情

属性 说明
模型代码 models/gemini-1.5-pro-latest
输入 音频、图片和文字
输出 文字
支持的生成方法 generateContent
输入令牌限制[**] 1048576
输出令牌限制[**] 8192
每个提示的图片数量上限 3,600
视频时长上限 1 小时
音频时长上限 大约 9.5 小时
每个提示的音频文件数量上限 1
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面
速率限制[*]
免费
  • 2 RPM
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 每千次展示收入
  • 1,000 万 TPM
  • 10000 RPD
  • 1,440 万 TPD
两百万个上下文
  • 1 RPM
  • 200 万 TPM
  • 50 RPD
系统指令 支持
JSON 模式 支持
最新版本 gemini-1.5-pro-latest
最新稳定版 gemini-1.5-pro
最近更新时间 2024 年 4 月

Gemini 1.5 Flash(预览版)

Gemini 1.5 Flash 是一种快速且灵活的多模态模型,可用于执行多种任务。

模型详情

属性 说明
模型代码 gemini-1.5-flash
输入 音频、图片和文字
输出 文字
支持的生成方法 generateContent
输入令牌限制[**] 1048576
输出令牌限制[**] 8192
每个提示的图片数量上限 3,600
视频时长上限 1 小时
音频时长上限 大约 9.5 小时
每个提示的音频文件数量上限 1
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面
速率限制[*]
免费
  • 15 RPM
  • 100 万 TPM
  • 1500 RPD
Pay-as-you-go:
  • 360 每千次展示收入
  • 1,000 万 TPM
  • 10000 RPD
系统指令 支持
JSON 模式 支持
最新版本 gemini-1.5-flash-latest
最新稳定版 gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro 是一种 NLP 模型,可以处理多轮文本和代码聊天以及代码生成等任务。

1.0 Pro 能够处理零样本、单样本和少样本学习任务。

模型详情

属性 说明
模型代码 models/gemini-pro
输入 文字
输出 文字
支持的生成方法
Python:generate_content
REST:generateContent
速率限制[*]
免费
  • 15 RPM
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 每千次展示收入
  • 120,000 TPM
  • 30000 RPD
  • 172,800,000 TPD
系统指令 不受支持
JSON 模式 不受支持
最新版本 gemini-1.0-pro-latest
最新稳定版 gemini-1.0-pro
稳定版本 gemini-1.0-pro-001
最近更新时间 2024 年 2 月

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision 是一个性能经过优化的多模态模型,可以执行与视觉相关的任务。例如,1.0 Pro Vision 可以生成图片描述,识别图片中的对象,提供图片中地点或对象的相关信息,等等。

1.0 Pro Vision 能够处理零样本、单样本和少样本任务。

模型详情

属性 说明
模型代码 models/gemini-pro-vision
输入 文字和图片
输出 文字
支持的生成方法
Python:generate_content
REST:generateContent
输入令牌限制[*] 12288
输出令牌限制[*] 4096
图片大小上限 无限制
每个提示的图片数量上限 16
视频时长上限 2 分钟
每个提示的视频数量上限 1
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面
速率限制[*] 每分钟 60 个请求
最新版本 gemini-1.0-pro-vision-latest
最新稳定版 gemini-1.0-pro-vision
最近更新时间 2023 年 12 月

文本嵌入和嵌入

文本嵌入

您可以使用文本嵌入模型为输入文本生成文本嵌入。如需详细了解文本嵌入模型,请参阅关于文本嵌入的 Generative AI on Vertex AI 文档

文本嵌入模型经优化,可用于创建具有 768 个维度的文本(最多 2048 个词元)的嵌入。文本嵌入可提供低于 768 的弹性嵌入大小。您可以使用弹性嵌入生成较小的输出维度,并且有望节省计算和存储费用,且性能损失微乎其微。

模型详情
属性 说明
模型代码 models/text-embedding-004Vertex AI 中的 text-embedding-preview-0409
输入 文字
输出 文本嵌入
输入令牌限制 2048
输出维度大小 768
支持的生成方法
Python:embed_content
REST:embedContent
模型安全性 没有可调整的安全设置。
速率限制[*] 每分钟 1,500 个请求
最近更新时间 2024 年 4 月

嵌入

您可以使用 Embedding 模型为输入文本生成文本嵌入

嵌入模型经过优化,可用于创建具有 768 个维度(最多 2048 个词元的文本)的嵌入。

嵌入模型详情
属性 说明
模型代码 models/embedding-001
输入 文字
输出 文本嵌入
输入令牌限制 2048
输出维度大小 768
支持的生成方法
Python:embed_content
REST:embedContent
模型安全性 没有可调整的安全设置。
速率限制[*] 每分钟 1,500 个请求
最近更新时间 2023 年 12 月

空气质量分析

您可以使用 AQA 模型对文档、语料库或一组段落执行与归因式问答 (AQA) 相关的任务。AQA 模型会返回基于所提供来源的问题的答案,以及估算可回答的概率。

模型详情

属性 说明
模型代码 models/aqa
输入 文字
输出 文字
支持的生成方法
Python:GenerateAnswerRequest
REST:generateAnswer
支持的语言 英语
输入令牌限制[**] 7168
输出令牌限制[**] 1024
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面
速率限制[*] 每分钟 60 个请求
最近更新时间 2023 年 12 月

请参阅示例,探索这些模型变体的功能。

[*] 对于 Gemini 模型来说,一个词元相当于大约 4 个字符。100 个词元约为 60-80 个英语单词。

[**] RPM:每分钟请求数
TPM:每分钟的令牌数
RPD:每日请求数
TPD:每天的令牌数

由于容量限制,不保证指定的最大速率限制。

模型版本名称模式

Gemini 模型提供预览版稳定版两种版本。在您的代码中,您可以使用以下模型名称格式之一来指定要使用的模型和版本。

  • 最新:指向指定世代和变体的尖端模型。底层模型会定期更新,它可能是预览版。只有探索性测试应用和原型才能使用此别名。

    如需指定最新版本,请使用以下格式:<model>-<generation>-<variation>-latest。例如 gemini-1.0-pro-latest

  • 最新稳定版:指向针对指定的模型生成和变体发布的最新稳定版。

    如需指定最新的稳定版,请使用以下格式:<model>-<generation>-<variation>。例如 gemini-1.0-pro

  • 稳定版:指向特定的稳定版模型。稳定的模型不会改变。大多数正式版应用都应使用特定的稳定模型。

    如需指定稳定版,请使用以下格式:<model>-<generation>-<variation>-<version>。例如 gemini-1.0-pro-001