Gemini API 提供多種最佳化機制,可協助您根據特定工作負載需求,在速度、成本和可靠性之間取得平衡。無論是建構即時對話機器人,還是執行大量離線資料處理管道,選擇合適的範例都能大幅降低成本或提升效能。
| 功能 | 標準 | Flex | 優先順序 | 批次 | 快取 |
|---|---|---|---|---|---|
| 定價 | 原價 | 50% 折扣 | 比標準價格高出 75% 到 100% | 50% 折扣 | 90% 折扣 + 按比例分攤的權杖儲存空間 |
| 延遲 | 秒到分鐘 | 分鐘 (目標:1 到 15 分鐘) | 秒 | 長達 24 小時 | 縮短第一個詞元生成時間 |
| 穩定性 | 高 / 中高 | 盡可能提供最佳服務 (可卸載) | 高 (不會脫落) | 高 (處理量) | 不適用 |
| 介面 | 同步 | 同步 | 同步 | 非同步 | 已儲存狀態 |
| 最佳用途 | 一般應用程式工作流程 | 非緊急的連續鏈結 | 生產環境、面向使用者的應用程式 | 龐大的資料集、離線評估 | 對相同檔案重複查詢 |
推論服務層級 (同步)
在標準生成呼叫中傳遞 service_tier 參數,即可在以可靠性為重和以成本為重的同步流量之間切換。
標準推論 (預設)
標準層級是連續生成內容的預設選項。可提供正常的回應時間,不會收取額外費用,也不會出現大量排隊情況。
- 可靠性:標準嚴重性
- 價格:標準價格。
- 適用情況:需要高度互動的日常應用程式。
優先推論 (延遲時間最佳化)
優先順序處理程序會將要求傳送至高重要性的運算佇列。這類流量絕對不會遭到捨棄 (絕不會遭到其他層級搶占),且可靠性最高。如果超過動態優先順序限制,系統會將要求降級為標準處理程序,而不是傳回錯誤。
- 可靠性:最高嚴重程度
- 價格:比標準費率高 75% 至 100%。
- 適用情況:客戶聊天機器人、即時詐欺偵測,以及業務關鍵的副駕駛。
彈性推論 (成本最佳化)
彈性推論會利用離峰時段的運算容量,因此與標準費率相比,可享有 50% 的折扣。要求會同步處理,因此您不必重新編寫程式碼來管理批次物件。由於這是「可捨棄」的流量,如果系統發生標準流量尖峰,要求可能會遭到搶占。
- 可靠性:無保證,可捨棄的重大性
- 價格:標準價格的 50% (按權杖計費)。
- 最適合:多步驟代理式工作流程,其中呼叫 N+1 取決於呼叫 N 的輸出內容、背景 CRM 更新和離線評估。
批次 API (大量、非同步)
批次 API 的設計宗旨,是以標準費用的 50%,非同步處理大量要求。您可以內嵌字典或使用 JSONL 輸入檔案 (最多 2 GB) 提交要求。這項服務會使用背景處理量佇列處理要求,目標處理時間為 24 小時。
- 可靠性:可捨棄,但有 24 小時自動重試和佇列系統
- 價格:標準價格的 50%。
- 最適合:預先處理大量資料集、執行週期性迴歸測試套件,以及大量生成圖片或嵌入。
脈絡快取 (節省輸入內容)
當較短的要求重複參照大量初始脈絡時,就會使用「脈絡快取」。
- 隱式快取:Gemini 2.5 以上模型會自動啟用這項功能。 如果要求根據常見提示前置字元命中現有快取,系統會將節省的費用轉移給您。
- 明確快取:您可以手動建立快取物件,並指定存留時間 (TTL)。建立後,您可以在後續要求中參照快取權杖,避免重複傳遞相同的語料庫酬載。
- 價格:根據快取權杖數量和儲存時間 (TTL) 計費。
- 最適合:具有大量系統指令的聊天機器人、對冗長影片檔案進行重複分析,或對大型文件集進行查詢。