Inferensi prioritas
Gemini Priority API adalah tingkat inferensi premium yang dirancang untuk beban kerja penting bisnis yang memerlukan latensi lebih rendah dan keandalan tertinggi dengan harga premium. Traffic tingkat prioritas diprioritaskan di atas traffic API standar dan tingkat Flex.
Inferensi prioritas tersedia di seluruh endpoint Interactions API.
Cara menggunakan Prioritas
Untuk menggunakan tingkat Prioritas, tetapkan kolom service_tier dalam permintaan Anda ke priority. Tingkat default adalah standar jika kolom dihilangkan.
Python
# This will only work for SDK newer than 2.0.0
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
// This will only work for SDK newer than 2.0.0
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
# Specifies the API revision to avoid breaking changes when they become default
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
Cara kerja inferensi Prioritas
Inferensi prioritas merutekan permintaan ke antrean komputasi dengan tingkat kekritisan tinggi, yang menawarkan performa cepat dan dapat diprediksi untuk aplikasi yang berinteraksi dengan pengguna. Mekanisme utamanya adalah downgrade sisi server yang lancar ke pemrosesan standar untuk traffic yang melebihi batas dinamis, sehingga memastikan stabilitas aplikasi, bukan membuat permintaan gagal.
| Fitur | Prioritas | Standar | Flex | Batch |
|---|---|---|---|---|
| Harga | 75-100% lebih mahal dari Standar | Harga penuh | Diskon 50% | Diskon 50% |
| Latensi | Detik | Detik hingga menit | Menit (target 1–15 menit) | Hingga 24 jam |
| Keandalan | Tinggi (Tidak dapat dihentikan) | Tinggi / Sedang-tinggi | Upaya terbaik (Dapat dihentikan) | Tinggi (untuk throughput) |
| Antarmuka | Sinkron | Sinkron | Sinkron | Asinkron |
Manfaat utama
- Latensi rendah: Dirancang untuk waktu respons kedua untuk alat AI interaktif, yang berinteraksi dengan pengguna.
- Keandalan tinggi: Traffic diperlakukan dengan tingkat kekritisan tertinggi dan tidak dapat dihentikan.
- Degradasi yang lancar: Lonjakan traffic yang melebihi batas dinamis secara otomatis di-downgrade ke tingkat Standar untuk diproses, bukan gagal, sehingga mencegah gangguan layanan.
- Gesekan rendah: Menggunakan metode sinkron
createyang sama dengan tingkat standar dan Flex.
Kasus penggunaan
Pemrosesan prioritas ideal untuk alur kerja penting bisnis yang mengutamakan performa dan keandalan.
- Aplikasi AI interaktif: Chatbot dan kopilot layanan pelanggan yang pengguna membayar premium dan mengharapkan respons yang cepat dan konsisten.
- Mesin keputusan real-time: Sistem yang memerlukan hasil yang sangat andal dan berlatensi rendah seperti triase tiket langsung atau deteksi penipuan.
- Fitur pelanggan premium: Developer yang perlu menjamin tujuan tingkat layanan yang lebih tinggi untuk pelanggan berbayar.
Batas kapasitas
Penggunaan prioritas memiliki batas kapasitasnya sendiri meskipun penggunaan dihitung terhadap batas kapasitas traffic interaktif secara keseluruhan. Batas kapasitas default untuk inferensi Prioritas adalah 0,3x batas kapasitas standar untuk Model / Tingkat
Logika downgrade yang lancar
Jika batas Prioritas terlampaui karena kemacetan, permintaan overflow akan otomatis dan lancar di-downgrade ke pemrosesan Standar, bukan gagal dengan error 503 atau 429. Permintaan yang di-downgrade ditagih dengan tarif standar, bukan tarif premium Prioritas.
Tanggung jawab klien
- Pemantauan respons: Developer harus memantau
x-gemini-service-tierheader dalam respons API untuk mendeteksi apakah permintaan sering di-downgrade kestandard. - Percobaan ulang: Klien harus menerapkan logika percobaan ulang/backoff eksponensial untuk
error standar, seperti
DEADLINE_EXCEEDED.
Harga
Inferensi prioritas dihargai 75-100% lebih mahal daripada API standar dan ditagih per token.
Model yang didukung
Model berikut mendukung inferensi Prioritas:
| Model | Inferensi prioritas |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Pratinjau Gemini 3.1 Flash-Lite | ✔️ |
| Pratinjau Gemini 3.1 Pro | ✔️ |
| Pratinjau Gemini 3 Flash | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Langkah berikutnya
- Inferensi Flex untuk pengurangan biaya.
- Token: Memahami token.