Gemini

Gemini 是一系列生成式 AI 模型,可让开发者生成内容和解决问题。这些模型经过设计和训练,可将文本和图片同时处理为输入。本指南提供了有关每个模型变体的信息,可帮助您确定哪个模型变体最契合您的用例。

支持的语言

Gemini (cs)、英语 (nl)、英语 (en)、爱沙尼亚语 (et)、芬兰语/、、、和。arbnbgzhhrdafifrdeeliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

PaLM 模型只能很好地处理英语。使用其他语言可能会产生意外的结果。

模型变体

Gemini API 提供了针对特定应用场景进行了优化的不同模型。下面简要介绍了可用的 Gemini 变体:

模型变体 输入 输出 优化目标
Gemini 1.5 Pro
gemini-1.5-pro
音频、图片、视频和文本 文字 复杂的推理任务,例如代码和文本生成、文本编辑、问题解决、数据提取和生成
Gemini 1.5 Flash
gemini-1.5-flash
音频、图片、视频和文本 文字 快速灵活地处理各种任务
Gemini 1.0 Pro
gemini-pro
文字 文字 自然语言任务、多轮文本和代码聊天以及代码生成
Gemini 1.0 Pro Vision
gemini-pro-vision
图片、视频和文字 文字 视觉相关任务,例如生成图片描述或识别图片中的对象
文本嵌入
text-embedding-004
文字 文本嵌入 衡量文本字符串的相关性

下表介绍了所有模型变体共有的 Gemini 模型属性:

属性 说明
训练数据 Gemini 的知识截止日期为 2023 年初。 对于该时间之后的事件,相关知识会受到限制。
支持的语言 查看支持的语言
可配置的模型参数
  • 前 p
  • 前 k 个
  • 温度
  • 停止序列
  • 最大输出长度
  • 候选响应数量

如需了解其中每个参数的信息,请参阅生成模型指南的模型参数部分

Gemini 1.5 Pro

Gemini 1.5 Pro 是一种中等大小的多模态模型,针对多种推理任务进行了优化,例如:

  • 代码生成
  • 文本生成
  • 文本编辑
  • 解决问题
  • 生成建议
  • 信息提取
  • 数据提取或生成
  • 创建 AI 代理

1.5 Pro 可以同时处理大量数据,包括 1 小时的视频、9.5 小时的音频、包含超过 3 万行代码或超过 70 万字的代码库。

1.5 Pro 能够处理零样本、单样本和少样本学习任务。

模型详情

属性 说明
模型代码 models/gemini-1.5-pro-latest
输入 音频、图片、视频和文本
输出 文字
支持的生成方法 generateContent
输入令牌限制[**] 1048576
输出令牌限制[**] 8192
每个提示的图片数量上限 3,600
视频时长上限 1 小时
音频时长上限 大约 9.5 小时
每个提示的音频文件数量上限 1
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面
速率限制[*]
免费
  • 2 RPM
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 每千次展示收入
  • 1,000 万 TPM
  • 10000 RPD
  • 1,440 万 TPD
两百万个上下文
  • 1 RPM
  • 200 万 TPM
  • 50 RPD
系统指令 支持
JSON 模式 支持
最新版本 gemini-1.5-pro-latest
最新稳定版 gemini-1.5-pro
稳定版本 gemini-1.5-pro-001
最近更新时间 2024 年 5 月

Gemini 1.5 Flash

Gemini 1.5 Flash 是一种快速且灵活的多模态模型,可用于执行多种任务。

模型详情

属性 说明
模型代码 gemini-1.5-flash-latest
输入 音频、图片、视频和文本
输出 文字
支持的生成方法 generateContent
输入令牌限制[**] 1048576
输出令牌限制[**] 8192
每个提示的图片数量上限 3,600
视频时长上限 1 小时
音频时长上限 大约 9.5 小时
每个提示的音频文件数量上限 1
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面
速率限制[*]
免费
  • 15 RPM
  • 100 万 TPM
  • 1500 RPD
Pay-as-you-go:
  • 360 每千次展示收入
  • 1,000 万 TPM
  • 10000 RPD
系统指令 支持
JSON 模式 支持
最新版本 gemini-1.5-flash-latest
最新稳定版 gemini-1.5-flash
稳定版本 gemini-1.5-flash-001
最近更新时间 2024 年 5 月

Gemini 1.0 Pro

Gemini 1.0 Pro 是一种 NLP 模型,可以处理多轮文本和代码聊天以及代码生成等任务。

1.0 Pro 能够处理零样本、单样本和少样本学习任务。

模型详情

属性 说明
模型代码 models/gemini-pro
输入 文字
输出 文字
支持的生成方法
Python:generate_content
REST:generateContent
速率限制[*]
免费
  • 15 RPM
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 每千次展示收入
  • 120,000 TPM
  • 30000 RPD
  • 172,800,000 TPD
系统指令 不受支持
JSON 模式 不受支持
最新版本 gemini-1.0-pro-latest
最新稳定版 gemini-1.0-pro
稳定版本 gemini-1.0-pro-001
最近更新时间 2024 年 2 月

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision 是一个性能经过优化的多模态模型,可以执行与视觉相关的任务。例如,1.0 Pro Vision 可以生成图片描述,识别图片中的对象,提供图片中地点或对象的相关信息,等等。

1.0 Pro Vision 能够处理零样本、单样本和少样本任务。

模型详情

属性 说明
模型代码 models/gemini-pro-vision
输入 文字、视频和图片
输出 文字
支持的生成方法
Python:generate_content
REST:generateContent
输入令牌限制[*] 12288
输出令牌限制[*] 4096
图片大小上限 无限制
每个提示的图片数量上限 16
视频时长上限 2 分钟
每个提示的视频数量上限 1
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面
速率限制[*] 每分钟 60 个请求
最新版本 gemini-1.0-pro-vision-latest
最新稳定版 gemini-1.0-pro-vision
最近更新时间 2023 年 12 月

文本嵌入和嵌入

文本嵌入

您可以使用文本嵌入模型为输入文本生成文本嵌入。如需详细了解文本嵌入模型,请参阅关于文本嵌入的 Generative AI on Vertex AI 文档

文本嵌入模型经优化,可用于创建具有 768 个维度的文本(最多 2048 个词元)的嵌入。文本嵌入可提供低于 768 的弹性嵌入大小。您可以使用弹性嵌入生成较小的输出维度,并且有望节省计算和存储费用,且性能损失微乎其微。

模型详情
属性 说明
模型代码 models/text-embedding-004Vertex AI 中的 text-embedding-preview-0409
输入 文字
输出 文本嵌入
输入令牌限制 2048
输出维度大小 768
支持的生成方法
Python:embed_content
REST:embedContent
模型安全性 没有可调整的安全设置。
速率限制[*] 每分钟 1,500 个请求
最近更新时间 2024 年 4 月

嵌入

您可以使用 Embedding 模型为输入文本生成文本嵌入

嵌入模型经过优化,可用于创建具有 768 个维度(最多 2048 个词元的文本)的嵌入。

嵌入模型详情
属性 说明
模型代码 models/embedding-001
输入 文字
输出 文本嵌入
输入令牌限制 2048
输出维度大小 768
支持的生成方法
Python:embed_content
REST:embedContent
模型安全性 没有可调整的安全设置。
速率限制[*] 每分钟 1,500 个请求
最近更新时间 2023 年 12 月

空气质量分析

您可以使用 AQA 模型对文档、语料库或一组段落执行与归因式问答 (AQA) 相关的任务。AQA 模型会返回基于所提供来源的问题的答案,以及估算可回答的概率。

模型详情

属性 说明
模型代码 models/aqa
输入 文字
输出 文字
支持的生成方法
Python:GenerateAnswerRequest
REST:generateAnswer
支持的语言 英语
输入令牌限制[**] 7168
输出令牌限制[**] 1024
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面
速率限制[*] 每分钟 60 个请求
最近更新时间 2023 年 12 月

请参阅示例,探索这些模型变体的功能。

[*] 对于 Gemini 模型来说,一个词元相当于大约 4 个字符。100 个词元约为 60-80 个英语单词。

[**] RPM:每分钟请求数
TPM:每分钟的令牌数
RPD:每日请求数
TPD:每天的令牌数

由于容量限制,不保证指定的最大速率限制。

模型版本名称模式

Gemini 模型提供预览版稳定版两种版本。在您的代码中,您可以使用以下模型名称格式之一来指定要使用的模型和版本。

  • 最新:指向指定世代和变体的尖端模型。底层模型会定期更新,它可能是预览版。只有探索性测试应用和原型才能使用此别名。

    如需指定最新版本,请使用以下格式:<model>-<generation>-<variation>-latest。例如 gemini-1.0-pro-latest

  • 最新稳定版:指向针对指定的模型生成和变体发布的最新稳定版。

    如需指定最新的稳定版,请使用以下格式:<model>-<generation>-<variation>。例如 gemini-1.0-pro

  • 稳定版:指向特定的稳定版模型。稳定的模型不会改变。大多数正式版应用都应使用特定的稳定模型。

    如需指定稳定版,请使用以下格式:<model>-<generation>-<variation>-<version>。例如 gemini-1.0-pro-001