Gemini

Gemini 是一系列生成式 AI 模型,可让开发者生成内容并解决问题。这些模型经过设计和训练,可同时处理文本和图片输入。本指南提供了有关每个模型变体的信息,以帮助您确定哪个变体最适合您的用例。

支持的语言

Gemini 模型经过训练,可支持以下语言:阿拉伯语(ar)、拉丁语(bn)、葡萄牙语(15 段英语(bn)、简体中文(bg)、简体中文(zh)、克罗地亚语(hr)、捷克语(da)、荷兰语(nl)、英语(en)、英语(et)、芬兰语({1//})”)、法语(bn)、zh(10、10、3、3、3、3、4、1)、{3、7、10、2、zh、{3、7、1、{3、7、7、7、bn、 {3、7、7、7、1、{1、7、7、7、7、7、、7、7、7、#、7、、7、、7、7、#、7、、7、#、7、# 7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、、7、、7、7、7、7、7、1、、7、csfifrdeeliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

PaLM 模型只能很好地支持英语。使用其他语言可能会产生意外结果。

模型变体

Gemini API 提供了针对特定用例优化的不同模型。下面简要概述了可用的 Gemini 变体:

模型变体 输入 输出 优化目标
Gemini 1.5 Pro(预览版) 音频、图片、视频和文字 文字 推理任务,包括(但不限于)代码和文本生成、文本编辑、问题解决、数据提取和数据生成
Gemini 1.5 Flash(预览版) 音频、图片、视频和文字 文字 以多种方式快速处理各种任务
Gemini 1.0 Pro 文字 文字 自然语言任务、多轮文本和代码聊天以及代码生成
Gemini 1.0 Pro Vision 图片、视频和文字 文字 针对与视觉相关的任务(如生成图片说明或识别图片中的对象)进行了优化
文本嵌入 文字 文本嵌入 为不超过 2048 个词元的文本生成具有高达 768 个维度的弹性文本嵌入
嵌入 文字 文本嵌入 为不超过 2,048 个词元的文本生成具有 768 个维度的文本嵌入
AQA 文字 文字 对提供的文本执行与归因相关的问答任务

下表介绍了所有模型变体共有的 Gemini 模型属性:

属性 说明
训练数据 Gemini 将于 2023 年初终止知识。 在此时间之后,有关事件的了解会受到限制。
支持的语言 查看支持的语言
可配置的模型参数
  • 顶部 p
  • 前 k 名
  • 温度
  • 停止序列
  • 输出长度上限
  • 候选响应数量

如需了解其中每个参数,请参阅生成模型指南的模型参数部分

Gemini 1.5 Pro(预览版)

Gemini 1.5 Pro 是一种中等大小的多模态模型,针对各种推理任务进行了优化,例如:

  • 生成代码
  • 文本生成
  • 文本编辑
  • 解决问题
  • 生成建议
  • 信息提取
  • 数据提取或生成
  • 创建 AI 代理

1.5 Pro 可以一次处理大量数据,包括 1 小时的视频、9.5 小时的音频以及包含 3 万多行代码或超过 70 万字的代码库。

1.5 Pro 能够处理零样本、单样本和少样本学习任务。

模型详情

属性 说明
模型代码 models/gemini-1.5-pro-latest
输入 音频、图片、视频和文字
输出 文字
支持的生成方法 generateContent
输入词元限制[**] 1,048,576,000
输出词元限制[**] 8192
每个提示的图片数量上限 3,600
视频时长上限 1 小时
音频时长上限 大约 9.5 小时
每个提示的音频文件数量上限 1
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们介绍安全设置的页面
速率限制[*]
免费
  • 每分钟 2 次
  • 32,000 TPM
  • 50 RPD
  • 46080000 TPD
Pay-as-you-go:
  • 360 转/分钟
  • 1,000 万 TPM
  • 10,000 RPD
  • 144 亿 TPD
两百万上下文
  • 每分钟 1 次
  • 200 万 TPM
  • 50 RPD
系统指令 支持
JSON 模式 支持
最新版本 gemini-1.5-pro-latest
最新稳定版 gemini-1.5-pro
最近更新时间 2024 年 4 月

Gemini 1.5 Flash(预览版)

Gemini 1.5 Flash 是一种快速、用途多样的多模态模型,可用于适应各种不同的任务。

模型详情

属性 说明
模型代码 gemini-1.5-flash-latest
输入 音频、图片、视频和文字
输出 文字
支持的生成方法 generateContent
输入词元限制[**] 1,048,576,000
输出词元限制[**] 8192
每个提示的图片数量上限 3,600
视频时长上限 1 小时
音频时长上限 大约 9.5 小时
每个提示的音频文件数量上限 1
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们介绍安全设置的页面
速率限制[*]
免费
  • 每分钟 15 次
  • 100 万 TPM
  • 1500 RPD
Pay-as-you-go:
  • 360 转/分钟
  • 1,000 万 TPM
  • 10,000 RPD
系统指令 支持
JSON 模式 支持
最新版本 gemini-1.5-flash-latest
最新稳定版 gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro 是一个 NLP 模型,可以处理多轮文本和代码聊天以及代码生成等任务。

1.0 Pro 能够处理零样本、单样本和少样本学习任务。

模型详情

属性 说明
模型代码 models/gemini-pro
输入 文字
输出 文字
支持的生成方法
Python:generate_content
REST:generateContent
速率限制[*]
免费
  • 每分钟 15 次
  • 32,000 TPM
  • 1500 RPD
  • 46080000 TPD
Pay-as-you-go:
  • 360 转/分钟
  • 120,000 TPM
  • 30,000 RPD
  • 172800000 TPD
系统指令 不受支持
JSON 模式 不受支持
最新版本 gemini-1.0-pro-latest
最新稳定版 gemini-1.0-pro
稳定版本 gemini-1.0-pro-001
最近更新时间 2024 年 2 月

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision 是一个经过性能优化的多模态模型,可以执行与视觉相关的任务。例如,1.0 Pro Vision 可以生成图片说明,识别图片中的对象,提供有关图片中地点或对象的信息等。

1.0 Pro Vision 能够处理零样本、单样本和少样本任务。

模型详情

属性 说明
模型代码 models/gemini-pro-vision
输入 文字、视频和图片
输出 文字
支持的生成方法
Python:generate_content
REST:generateContent
输入词元限制[*] 12288
输出词元限制[*] 4096
图片大小上限 无限制
每个提示的图片数量上限 16
视频时长上限 2 分钟
每个提示的视频数量上限 1
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们介绍安全设置的页面
速率限制[*] 每分钟 60 个请求
最新版本 gemini-1.0-pro-vision-latest
最新稳定版 gemini-1.0-pro-vision
最近更新时间 2023 年 12 月

文本嵌入和嵌入

文本嵌入

您可以使用文本嵌入模型为输入文本生成文本嵌入。如需详细了解文本嵌入模型,请参阅有关文本嵌入的 Vertex AI 上的生成式 AI 文档

文本嵌入模型经过优化,可针对最多包含 2048 个词元的文本创建具有 768 个维度的嵌入。文本嵌入可提供低于 768 的弹性嵌入大小。您可以使用弹性嵌入生成较小的输出维度,有可能在轻微的性能损失的情况下节省计算和存储费用。

模型详情
属性 说明
模型代码 models/text-embedding-004Vertex AI 中的 text-embedding-preview-0409
输入 文字
输出 文本嵌入
输入词元限制 2048
输出维度大小 768
支持的生成方法
Python:embed_content
REST:embedContent
模型安全性 没有可调整的安全设置。
速率限制[*] 每分钟 1500 个请求
最近更新时间 2024 年 4 月

嵌入

您可以使用嵌入模型为输入文本生成文本嵌入

嵌入模型经过优化,可针对最多包含 2048 个词元的文本创建具有 768 个维度的嵌入。

嵌入模型详细信息
属性 说明
模型代码 models/embedding-001
输入 文字
输出 文本嵌入
输入词元限制 2048
输出维度大小 768
支持的生成方法
Python:embed_content
REST:embedContent
模型安全性 没有可调整的安全设置。
速率限制[*] 每分钟 1500 个请求
最近更新时间 2023 年 12 月

空气质量认证 (AQA)

您可以使用 AQA 模型对文档、语料库或一组段落执行与归因问答 (AQA) 相关的任务。AQA 模型会返回根据所提供的信息来源对问题给出的回答,以及估算可回答的概率。

模型详情

属性 说明
模型代码 models/aqa
输入 文字
输出 文字
支持的生成方法
Python:GenerateAnswerRequest
REST:generateAnswer
支持的语言 英语
输入词元限制[**] 7168
输出词元限制[**] 1024
模型安全性 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们介绍安全设置的页面
速率限制[*] 每分钟 60 个请求
最近更新时间 2023 年 12 月

如需了解这些模型变体的功能,请参阅示例

[*] 对于 Gemini 模型,一个词元大约相当于 4 个字符。100 个词元约为 60-80 个英语单词。

[**] RPM:每分钟请求数
TPM:每分钟令牌数
RPD:每天请求数
TPD:每日令牌数

由于容量限制,无法保证指定的最大速率限制。

模型版本名称模式

Gemini 模型提供预览版稳定版本。在代码中,您可以使用以下模型名称格式之一来指定要使用的模型和版本。

  • 最新:指向指定世代和变体的模型最先进的版本。底层模型会定期更新,并且可能是预览版。只有探索性测试应用和原型才应使用此别名。

    如需指定最新版本,请使用以下格式:<model>-<generation>-<variation>-latest。例如 gemini-1.0-pro-latest

  • 最新稳定版:指向针对指定模型生成和变体发布的最新稳定版。

    如需指定最新的稳定版本,请使用以下模式:<model>-<generation>-<variation>。例如 gemini-1.0-pro

  • 稳定:指向特定的稳定模型。稳定的模型不会发生变化。 大多数正式版应用都应使用特定的稳定模型。

    如需指定稳定版,请使用以下模式:<model>-<generation>-<variation>-<version>。例如 gemini-1.0-pro-001