Gemini

Gemini 是一系列生成式 AI 模型,可讓開發人員生成內容及解決問題。這類模型經過設計及訓練,可將文字和圖片做為輸入內容。本指南提供每個模型變化版本的資訊,協助您判斷何者最符合您的用途。

支援語言

Gemini/2、2、6、2、2、4、4、M、4、H、M、A、H、A、M、H、A、M、H、A、M、A (ar)、 Bengali (bn)、保加利亞文 (bg)、中文 (簡體/繁體) {1.2} (第 2 文、北印度文/俄文/7}文/日文 {11/8}}、北印度文/俄文/7}文、日文{10/7})、克羅埃文 (da)、荷蘭文 (nl)、英文 (en),zhhrcsetfifrdeeliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

PaLM 模型僅支援英文。如果使用其他語言,可能會導致非預期的結果。

模型變化版本

Gemini API 提供各種經最佳化調整的模型,適合特定用途。以下簡要說明可用的 Gemini 變化版本:

模型變化版本 輸入內容 輸出內容 適合用途
Gemini 1.5 Pro (預先發布版) 音訊、圖片、影片和文字 文字 推理工作,包括但不限於程式碼和文字生成、文字編輯、問題解決、資料擷取和生成
Gemini 1.5 Flash (預先發布版) 音訊、圖片、影片和文字 文字 快速靈活地執行各種工作
Gemini 1.0 Pro 文字 文字 自然語言工作、多輪文字和程式碼即時通訊,以及生成程式碼
Gemini 1.0 Pro Vision 圖片、影片和文字 文字 針對視覺相關工作最佳化效能,例如產生圖片說明或識別圖片中的物件
文字嵌入 文字 文字嵌入 針對最多 2,048 個符記的文字產生高達 768 個尺寸的彈性文字嵌入
嵌入 文字 文字嵌入 針對最多 2,048 個符記的文字產生尺寸為 768 的文字嵌入
品質確保 文字 文字 針對提供的文字執行歸因問題解答工作

下表說明所有模型變化版本常見的 Gemini 模型屬性:

屬性 說明
訓練資料 Gemini 將於 2023 年初補足知識。瞭解這段時間後的事件相關知識。
支援的語言 查看支援的語言
可設定的模型參數
  • 可能性總和為 P
  • 前 K 個
  • Temperature
  • 停止序列
  • 輸出內容長度上限
  • 應試者人數

如要進一步瞭解這些參數,請參閱生成式模型指南的模型參數一節

Gemini 1.5 Pro (預先發布版)

Gemini 1.5 Pro 是中型的多模態模型,最適合用於各種推理工作,例如:

  • 程式碼生成
  • 文字生成
  • 文字編輯
  • 解決問題
  • 產生建議
  • 資訊擷取
  • 資料擷取或產生
  • 建立 AI 虛擬服務專員

1.5 Pro 可以一次處理大量資料,包括 1 小時的影片、9.5 小時的音訊、含有超過 30,000 行程式碼或超過 700,000 字的程式碼集。

1.5 Pro 可以處理零樣本、單一和少量樣本的學習工作。

模型詳細資料

屬性 說明
模型程式碼 models/gemini-1.5-pro-latest
輸入 音訊、圖片、影片和文字
輸出內容 文字
支援的產生方法 generateContent
輸入符記限制[**] 1,048,576 人
輸出符記數量上限[**] 8,192
每則提示的圖片數量上限 3,600 人
影片長度上限 1 小時
音訊長度上限 約 9.5 小時
每則提示的音訊檔案數量上限 1
模型安全性 自動套用安全設定,可由開發人員調整。詳情請參閱安全性設定頁面
頻率限制[*]
免費:
  • 每分鐘 2 轉
  • 32,000 TPM
  • 每秒要求數 50
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 千次曝光收益
  • 1,000 萬 TPM
  • 每秒要求數 10,000 次
  • 14,400,000,000 TPD
兩百萬個背景資訊:
  • 每分鐘 1 次
  • 200 萬 TPM
  • 每秒要求數 50
系統指示 有權限
JSON 模式 有權限
最新版本 gemini-1.5-pro-latest
最新的穩定版 gemini-1.5-pro
上次更新時間 2024 年 4 月

Gemini 1.5 Flash (預先發布版)

Gemini 1.5 Flash 是快速且功能多樣的多模態模型,可以擴充各種工作。

模型詳細資料

屬性 說明
模型程式碼 gemini-1.5-flash-latest
輸入內容 音訊、圖片、影片和文字
輸出內容 文字
支援的產生方法 generateContent
輸入符記限制[**] 1,048,576 人
輸出符記數量上限[**] 8,192
每則提示的圖片數量上限 3,600 人
影片長度上限 1 小時
音訊長度上限 約 9.5 小時
每則提示的音訊檔案數量上限 1
模型安全性 自動套用安全設定,可由開發人員調整。詳情請參閱安全性設定頁面
頻率限制[*]
免費:
  • 15 千次觀看收益
  • 100 萬 TPM
  • 每秒要求數:1,500
Pay-as-you-go:
  • 360 千次曝光收益
  • 1,000 萬 TPM
  • 每秒要求數 10,000 次
系統指示 有權限
JSON 模式 有權限
最新版本 gemini-1.5-flash-latest
最新的穩定版 gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro 是自然語言處理模型,可處理多輪文字和程式碼對話,以及生成程式碼等工作。

1.0 Pro 可以處理零樣本、單一和少量樣本的學習工作。

模型詳細資料

屬性 說明
模型程式碼 models/gemini-pro
輸入內容 文字
輸出內容 文字
支援的產生方法
Python:generate_content
REST:generateContent
頻率限制[*]
免費:
  • 15 千次觀看收益
  • 32,000 TPM
  • 每秒要求數 1,500
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 千次曝光收益
  • 120,000 TPM
  • 每秒要求數 30,000 個
  • 172,800,000 TPD
系統指示 不支援
JSON 模式 不支援
最新版本 gemini-1.0-pro-latest
最新的穩定版 gemini-1.0-pro
穩定版 gemini-1.0-pro-001
上次更新時間 2024 年 2 月

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision 是效能最佳化的多模態模型,可以執行視覺相關工作。舉例來說,1.0 Pro Vision 可以產生圖片說明、辨識圖片中的物件、提供圖片中地點或物件的相關資訊等。

1.0 Pro Vision 可以處理零樣本、單一和少量任務的工作。

模型詳細資料

屬性 說明
模型程式碼 models/gemini-pro-vision
輸入 文字、影片和圖片
輸出內容 文字
支援的產生方法
Python:generate_content
REST:generateContent
輸入符記限制[*] 12,288
輸出符記數量上限[*] 4,096
圖片大小上限 無限制
每則提示的圖片數量上限 16
影片長度上限 2 分鐘
每則提示的影片數量上限 1
模型安全性 自動套用安全設定,可由開發人員調整。詳情請參閱安全性設定頁面
頻率限制[*] 每分鐘 60 個要求
最新版本 gemini-1.0-pro-vision-latest
最新的穩定版 gemini-1.0-pro-vision
上次更新時間 2023 年 12 月

文字嵌入和嵌入

文字嵌入

您可以使用文字嵌入模型,為輸入文字產生文字嵌入。如要進一步瞭解文字嵌入模型,請參閱 Vertex AI 的生成式 AI 說明文件,瞭解文字嵌入功能。

文字嵌入模型已針對最多 2,048 個符記的文字建立具備 768 個維度的嵌入,藉此建立嵌入項目。Text Embeding 提供小於 768 的彈性嵌入大小。您可以使用彈性嵌入功能產生較小的輸出維度,或許也能在效能下降的情況下節省運算和儲存空間費用。

模型詳細資料
屬性 說明
模型程式碼 models/text-embedding-004 (Vertex AI 中的 text-embedding-preview-0409)
輸入內容 文字
輸出內容 文字嵌入
輸入詞元限制 2,048
輸出尺寸大小 768
支援的產生方法
Python:embed_content
REST:embedContent
模型安全性 沒有可調整的安全設定。
頻率限制[*] 每分鐘 1,500 個要求
上次更新時間 2024 年 4 月

嵌入

您可以使用嵌入模型產生輸入文字的文字嵌入

嵌入模型已針對最多 2,048 個符記的文字建立具有 768 個維度的嵌入項目,已經過最佳化調整。

嵌入模型詳細資料
屬性 說明
模型程式碼 models/embedding-001
輸入內容 文字
輸出內容 文字嵌入
輸入詞元限制 2,048
輸出尺寸大小 768
支援的產生方法
Python:embed_content
REST:embedContent
模型安全性 沒有可調整的安全設定。
頻率限制[*] 每分鐘 1,500 個要求
上次更新時間 2023 年 12 月

AQA

您可以使用 AQA 模型,針對文件、語料庫或一組段落執行歸因問題回答 (AQA) 相關工作。AQA 模型會針對所提供來源的基礎問題傳回答案,並預估「可回答的機率」。

模型詳細資料

屬性 說明
模型程式碼 models/aqa
輸入內容 文字
輸出內容 文字
支援的產生方法
Python:GenerateAnswerRequest
REST:generateAnswer
支援的語言 英文
輸入符記限制[**] 7,168
輸出符記數量上限[**] 1,024
模型安全性 自動套用安全設定,可由開發人員調整。詳情請參閱安全性設定頁面
頻率限制[*] 每分鐘 60 個要求
上次更新時間 2023 年 12 月

請參閱範例,瞭解這些模型變化版本的功能。

[*] 一個符記相當於 Gemini 模型的 4 個字元。100 個符記大約介於 60 至 80 個英文單字。

[**] 每分鐘要求數
TPM:每分鐘權杖數
每秒要求數:每日要求數
TPD:每日權杖數

由於容量限制,我們無法對指定頻率上限提出保證。

模型版本名稱模式

Gemini 模型提供預先發布版穩定版。您可在程式碼中使用下列其中一種模型名稱格式,指定要使用的模型和版本。

  • 最新:指向特定生成版本和變化版本的最先進的模型。基礎模型會定期更新,且可能是預覽版本。只有探索性測試應用程式和原型才能使用這個別名。

    如要指定最新版本,請使用下列模式:<model>-<generation>-<variation>-latest。例如 gemini-1.0-pro-latest

  • 最新穩定版本:會指向指定模型產生作業和變化版本的最新穩定版本。

    如要指定最新的穩定版本,請使用下列模式:<model>-<generation>-<variation>。例如 gemini-1.0-pro

  • 穩定版:指向特定的穩定模型。穩定模型不會改變。 大多數正式版應用程式都應使用特定的穩定模型。

    如要指定穩定版,請使用下列模式:<model>-<generation>-<variation>-<version>。例如 gemini-1.0-pro-001