Gemini

Gemini 是一系列生成式 AI 模型,可讓開發人員產生內容並解決問題。這些模型在設計和訓練後 可處理文字和圖片做為輸入內容本指南提供每個模型變化版本的資訊,協助您判斷哪種模型最適合您。

安全與預定用途

生成式人工智慧模型是很強大的工具,但不受限制。其靈活性和適用性有時可能會產生非預期的輸出內容,例如不正確、偏誤或令人反感的輸出內容。後續處理和嚴格的人工評估非常重要,目的是降低這類輸出內容帶來的傷害風險。如需更多安全使用建議,請參閱安全指南

Gemini API 提供的模型可用於各種生成式 AI 和自然語言處理 (NLP) 應用程式。您只能透過 Gemini API 或 Google AI Studio 網頁應用程式使用這些函式。使用 Gemini API 時也必須遵守《生成式 AI 使用限制政策》和《Gemini API 服務條款》。

模型變化版本

Gemini API 提供專為特定用途最佳化的模型,以下簡要說明可用的 Gemini 變化版本:

模型變化版本 輸入 輸出內容 適合用途
Gemini 1.5 Pro (預先發布版) 音訊、圖片和文字 文字 推理工作,包括但不限於程式碼與文字產生、文字編輯、問題解決、資料擷取及產生
Gemini 1.5 Flash (預先發布版) 音訊、圖片和文字 文字 快速靈活地處理各種工作
Gemini 1.0 Pro 文字 文字 自然語言工作、多輪文字和程式碼聊天,以及產生程式碼
Gemini 1.0 Pro Vision 圖片和文字 文字 最佳化效能,適合視覺相關工作,例如產生圖片說明或識別圖片中的物件
嵌入文字 文字 文字嵌入 產生彈性的文字嵌入功能,最多可使用 768 個尺寸的文字嵌入,長度上限為 2,048 個符記
嵌入 文字 文字嵌入 產生文字嵌入 (支援 768 個維度,最多 2,048 個符記)
AQA 文字 文字 對提供的文字執行歸因回答相關工作

下表說明所有模型變化版本通用的 Gemini 模型屬性:

屬性 說明
訓練資料 Gemini 的知識截止日為 2023 年初。 在該時間過後,事件的相關資訊。
支援的語言 查看支援的語言
可設定的模型參數
  • 可能性總和為 P
  • 前 K 個
  • 隨機性參數
  • 停止序列
  • 輸出長度上限
  • 候選回覆數量

如要瞭解每個參數的相關資訊,請參閱生成式模型指南的模型參數一節

Gemini 1.5 Pro (預先發布版)

Gemini 1.5 Pro 是中型的多模態模型,適合用於多種推理工作,例如:

  • 程式碼生成
  • 文字生成
  • 文字編輯
  • 解決問題
  • 產生推薦內容
  • 資訊擷取
  • 資料擷取或產生
  • 建立 AI 虛擬服務專員

1.5 Pro 可以一次處理大量資料,包括 1 小時的影片、9.5 小時的音訊、程式碼集超過 30,000 行程式碼或超過 700,000 個字。

1.5 Pro 可以處理零樣本、單樣本和少量學習工作。

模型詳細資料

屬性 說明
模型程式碼 models/gemini-1.5-pro-latest
輸入 音訊、圖片和文字
輸出內容 文字
支援的產生方法 generateContent
輸入權杖限制[**] 1,048,576 人
輸出權杖限制[**] 8,192
每則提示的圖片數量上限 3,600 人
影片長度上限 1 小時
音訊長度上限 約 9.5 小時
每則提示的音訊檔案數量上限 1
模型安全性 自動套用的安全設定可由開發人員調整。詳情請參閱安全設定頁面
頻率限制[*]
免費:
  • 2 RPM
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 1,000 萬 TPM
  • 10,000 RPD
  • 14,400,000,000 TPD
200 萬個背景資訊:
  • 每分鐘 1 轉
  • 200 萬 TPM
  • 50 RPD
系統操作說明 有權限
JSON 模式 有權限
最新版本 gemini-1.5-pro-latest
最新的穩定版本 gemini-1.5-pro
上次更新時間 2024 年 4 月

Gemini 1.5 Flash (預先發布版)

Gemini 1.5 Flash 是一種快速且功能多元的多模態模型,能夠擴充各種任務。

模型詳細資料

屬性 說明
模型程式碼 gemini-1.5-flash
輸入 音訊、圖片和文字
輸出內容 文字
支援的產生方法 generateContent
輸入權杖限制[**] 1,048,576 人
輸出權杖限制[**] 8,192
每則提示的圖片數量上限 3,600 人
影片長度上限 1 小時
音訊長度上限 約 9.5 小時
每則提示的音訊檔案數量上限 1
模型安全性 自動套用的安全設定可由開發人員調整。詳情請參閱安全設定頁面
頻率限制[*]
免費:
  • 15 RPM
  • 100 萬 TPM
  • 1,500 RPD
Pay-as-you-go:
  • 360 RPM
  • 1,000 萬 TPM
  • 10,000 RPD
系統操作說明 有權限
JSON 模式 有權限
最新版本 gemini-1.5-flash-latest
最新的穩定版本 gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro 是一種 NLP 模型,可處理多輪文字訊息與程式碼即時通訊,以及產生程式碼等工作。

1.0 Pro 可以處理零次、一級和少量樣本的學習工作。

模型詳細資料

屬性 說明
模型程式碼 models/gemini-pro
輸入內容 文字
輸出內容 文字
支援的產生方法
Python:generate_content
REST:generateContent
頻率限制[*]
免費:
  • 15 RPM
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120,000 TPM
  • 30,000 RPD
  • 172,800,000 TPD
系統操作說明 不支援
JSON 模式 不支援
最新版本 gemini-1.0-pro-latest
最新的穩定版本 gemini-1.0-pro
穩定版 gemini-1.0-pro-001
上次更新時間 2024 年 2 月

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision 是效能最佳化的多模態模型,可執行視覺相關工作。舉例來說,1.0 Pro Vision 可產生圖片說明、識別圖片中的物件、提供圖片中地點或物件的相關資訊等。

1.0 Pro Vision 可以處理零個、單擊和少量樣本的工作。

模型詳細資料

屬性 說明
模型程式碼 models/gemini-pro-vision
輸入 文字和圖片
輸出內容 文字
支援的產生方法
Python:generate_content
REST:generateContent
輸入權杖限制[*] 12,288
輸出權杖限制[*] 4,096
圖片大小上限 無限制
每則提示的圖片數量上限 16
影片長度上限 2 分鐘
每則提示的影片數量上限 1
模型安全性 自動套用的安全設定可由開發人員調整。詳情請參閱安全設定頁面
頻率限制[*] 每分鐘 60 個要求
最新版本 gemini-1.0-pro-vision-latest
最新的穩定版本 gemini-1.0-pro-vision
上次更新時間 2023 年 12 月

文字嵌入和嵌入

嵌入文字

您可以使用文字嵌入模型,產生輸入文字的文字嵌入。如要進一步瞭解文字嵌入模型,請參閱 Vertex AI 生成式 AI 說明文件,瞭解文字嵌入功能。

文字嵌入模型已經過最佳化,適合用來建立具有 768 個維度的嵌入,最多可顯示 2,048 個符記。文字嵌入功能可支援彈性的嵌入大小 (低於 768)。您可以使用彈性的嵌入功能產生較小的輸出維度,而且有機會以稍微降低效能的方式節省運算和儲存費用。

模型詳細資料
屬性 說明
模型程式碼 models/text-embedding-004 (Vertex AI 中的 text-embedding-preview-0409)
輸入內容 文字
輸出內容 文字嵌入
輸入權杖限制 2,048
輸出尺寸大小 768
支援的產生方法
Python:embed_content
REST:embedContent
模型安全性 沒有可調整的安全設定。
頻率限制[*] 每分鐘 1,500 個要求
上次更新時間 2024 年 4 月

嵌入

您可以使用嵌入模型來產生輸入文字的文字嵌入

嵌入模型已經過最佳化,適合用來建立具有 768 個維度的嵌入,最多可顯示 2,048 個符記。

嵌入模型詳細資料
屬性 說明
模型程式碼 models/embedding-001
輸入內容 文字
輸出內容 文字嵌入
輸入權杖限制 2,048
輸出尺寸大小 768
支援的產生方法
Python:embed_content
REST:embedContent
模型安全性 沒有可調整的安全設定。
頻率限制[*] 每分鐘 1,500 個要求
上次更新時間 2023 年 12 月

AQA

您可以使用 AQA 模型,對文件、語料庫或一組段落執行歸因問題回答 (AQA) 相關工作。AQA 模型會針對提供來源傳回問題的答案,並估算可回答的機率。

模型詳細資料

屬性 說明
模型程式碼 models/aqa
輸入內容 文字
輸出內容 文字
支援的產生方法
Python:GenerateAnswerRequest
REST:generateAnswer
支援的語言 英文
輸入權杖限制[**] 7,168
輸出權杖限制[**] 1,024
模型安全性 自動套用的安全設定可由開發人員調整。詳情請參閱安全設定頁面
頻率限制[*] 每分鐘 60 個要求
上次更新時間 2023 年 12 月

請參閱範例,探索這些模型變化版本的功能。

[*] Gemini 模型的符記相當於約 4 個字元。100 和 60 至 80 個英文字詞。

[**] RPM:每分鐘要求數
TPM:每分鐘權杖數量
RPD:每日要求數
TPD:每日權杖數

由於容量限制,我們無法保證達到指定的頻率上限。

模型版本名稱模式

Gemini 模型提供預先發布版穩定版。在您的程式碼中,您可以使用下列其中一種模型名稱格式來指定要使用的模型和版本。

  • 最新版本:指向特定生成世代和變化版本的模型的最先進版本。基礎模型會定期更新,可能為預先發布版。只有探索性測試應用程式和原型應使用這個別名。

    如要指定最新版本,請使用以下模式:<model>-<generation>-<variation>-latest。例如 gemini-1.0-pro-latest

  • 最新的穩定版本:指向指定模型生成和變化版本的最新穩定版本。

    如要指定最新的穩定版本,請使用下列模式:<model>-<generation>-<variation>。例如 gemini-1.0-pro

  • 穩定版:指向特定的穩定模型。穩定的模型不會變更。大部分的正式版應用程式都應使用特定的穩定模型。

    如要指定穩定版本,請使用下列模式:<model>-<generation>-<variation>-<version>。例如 gemini-1.0-pro-001