Interactions API 現已正式發布。建議使用這個 API，存取所有最新功能和模型。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini API 最佳化和推論

Gemini API 提供多種最佳化機制，可協助您根據特定工作負載需求，在速度、成本和可靠性之間取得平衡。無論是建構即時對話機器人，還是執行大量離線資料處理管道，選擇合適的範例都能大幅降低成本或提升效能。

推論服務層級 (同步)

在標準生成呼叫中傳遞 service_tier 參數，即可在以可靠性為重和以成本為重的同步流量之間切換。

標準層級是連續生成內容的預設選項。可提供正常的回應時間，不會收取額外費用，也不會出現大量排隊情況。

優先順序處理程序會將要求傳送至高重要性的運算佇列。這類流量絕對不會遭到捨棄 (絕不會遭到其他層級搶占)，而且可靠性最高。如果超過動態優先順序限制，系統會將要求降級為標準處理程序，而不是傳回錯誤。

彈性推論會利用離峰時段的運算容量，因此與標準費率相比，可享有 50% 的折扣。要求會同步處理，因此您不必重新編寫程式碼來管理批次物件。由於這是「可捨棄」的流量，如果系統發生標準流量尖峰，要求可能會遭到搶占。

批次 API 的設計宗旨，是以標準費用的 50%，非同步處理大量要求。您可以內嵌字典或使用 JSONL 輸入檔案 (最多 2 GB) 提交要求。這項服務會使用背景處理量佇列處理要求，目標處理時間為 24 小時。

當較短的要求重複參照大量初始脈絡時，就會使用「脈絡快取」。