Gemini Priority API adalah tingkat inferensi premium yang dirancang untuk workload penting bisnis yang memerlukan latensi lebih rendah dan keandalan tertinggi dengan titik harga premium. Traffic tingkat prioritas diprioritaskan di atas traffic API standar dan tingkat Flex.
Inferensi prioritas tersedia untuk pengguna Tier 2 & Tier 3 di seluruh endpoint GenerateContent API dan Interactions API.
Cara menggunakan Prioritas
Untuk menggunakan tingkat Prioritas, tetapkan kolom service_tier di isi permintaan ke
SERVICE_TIER_PRIORITY. Paket defaultnya adalah standar jika kolom ini tidak diisi.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
Di JavaScript, downgrade ditangani secara otomatis oleh library klien. Jika kapasitas terlampaui, error akan ditampilkan atau permintaan akan diproses di tingkatan standar. Objek respons tidak secara langsung mengekspos header untuk memeriksa penurunan versi.
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
Di Go, downgrade ditangani secara otomatis oleh library klien. Jika kapasitas terlampaui, error akan ditampilkan atau permintaan akan diproses di tingkatan standar. Objek respons tidak secara langsung mengekspos header untuk memeriksa apakah ada penurunan versi.
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Cara kerja Inferensi prioritas
Inferensi prioritas merutekan permintaan ke antrean komputasi dengan kritikalitas tinggi, sehingga menawarkan performa yang cepat dan dapat diprediksi untuk aplikasi yang ditampilkan kepada pengguna. Mekanisme utamanya adalah downgrade sisi server yang lancar ke pemrosesan standar untuk traffic yang melebihi batas dinamis, sehingga memastikan stabilitas aplikasi, bukan membuat permintaan gagal.
| Fitur | Prioritas | Standar | Lipat | Batch |
|---|---|---|---|---|
| Harga | 75-100% lebih banyak daripada Standard | Harga penuh | Diskon 50% | Diskon 50% |
| Latensi | Rendah (Detik) | Detik ke menit | Menit (target 1–15 menit) | Hingga 24 jam |
| Keandalan | Tinggi (Tidak rontok) | Tinggi / Sedang-tinggi | Upaya terbaik (Dapat Dihapus) | Tinggi (untuk throughput) |
| Antarmuka | Sinkron | Sinkron | Sinkron | Asinkron |
Manfaat utama
- Latensi rendah: Dirancang untuk waktu respons milidetik untuk alat AI interaktif yang ditujukan bagi pengguna.
- Keandalan tinggi: Traffic diperlakukan dengan tingkat kepentingan tertinggi dan tidak dapat dihilangkan.
- Degradasi yang lancar: Lonjakan traffic yang melebihi batas dinamis akan diturunkan secara otomatis ke tingkat Standard untuk diproses, bukan gagal, sehingga mencegah gangguan layanan.
- Gesekan rendah: Menggunakan metode
generateContentsinkron yang sama dengan paket standar dan Flex.
Kasus penggunaan
Pemrosesan prioritas ideal untuk alur kerja penting bisnis yang mengutamakan performa dan keandalan.
- Aplikasi AI interaktif: Chatbot dan kopilot layanan pelanggan yang penggunanya membayar biaya premium dan mengharapkan respons yang cepat dan konsisten.
- Mesin pengambilan keputusan real-time: Sistem yang memerlukan hasil yang sangat andal dan berlatensi rendah, seperti triase tiket live atau deteksi penipuan.
- Fitur pelanggan premium: Developer yang perlu menjamin tujuan tingkat layanan (SLO) yang lebih tinggi untuk pelanggan berbayar.
Batas kapasitas
Penggunaan prioritas memiliki batas kapasitasnya sendiri meskipun penggunaan dihitung dalam batas kapasitas traffic interaktif keseluruhan. Batas frekuensi default untuk inferensi Prioritas adalah batas frekuensi standar 0,3x untuk Model / Tingkat
Logika downgrade yang lancar
Jika batas Prioritas terlampaui karena kemacetan, permintaan yang meluap akan diturunkan secara otomatis dan lancar ke pemrosesan Standar, bukan gagal dengan error 503 atau 429. Permintaan yang di-downgrade ditagih dengan tarif standar, bukan tarif premium Prioritas.
Tanggung jawab klien
- Pemantauan respons: Developer harus memantau nilai
service_tierdalam isi respons API untuk mendeteksi apakah permintaan sering diturunkan kestandard. - Percobaan ulang: Klien harus menerapkan logika percobaan ulang/backoff eksponensial untuk
error standar, seperti
DEADLINE_EXCEEDED.
Harga
Inferensi prioritas dihargai 75-100% lebih mahal daripada API standar dan ditagih per token.
Model yang didukung
Model berikut mendukung Inferensi prioritas:
| Model | Inferensi prioritas |
|---|---|
| Pratinjau Gemini 3.1 Flash-Lite | ✔️ |
| Pratinjau Gemini 3.1 Pro | ✔️ |
| Pratinjau Gemini 3 Flash | ✔️ |
| Pratinjau Gambar Gemini 3 Pro | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gambar Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Langkah berikutnya
Baca opsi inferensi dan pengoptimalan Gemini lainnya:
- Inferensi fleksibel untuk pengurangan biaya sebesar 50%.
- Batch API untuk pemrosesan asinkron dalam waktu 24 jam.
- Caching konteks untuk mengurangi biaya token input.