Deep Research Gemini kini tersedia dalam pratinjau dengan perencanaan kolaboratif, visualisasi, dukungan MCP, dan lainnya.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Inferensi prioritas

Gemini Priority API adalah tingkat inferensi premium yang dirancang untuk beban kerja penting bisnis yang memerlukan latensi lebih rendah dan keandalan tertinggi dengan harga premium. Traffic tingkat prioritas diprioritaskan di atas traffic API standar dan tingkat Flex.

Inferensi prioritas tersedia untuk pengguna Tingkat 2 & Tingkat 3 di seluruh endpoint GenerateContent API dan Interactions API.

Cara menggunakan Prioritas

Untuk menggunakan tingkat Prioritas, tetapkan kolom service_tier di isi permintaan ke priority. Tingkat default adalah standar jika kolom dihilangkan.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

Cara kerja inferensi Prioritas

Inferensi prioritas merutekan permintaan ke antrean komputasi dengan tingkat kekritisan tinggi, yang menawarkan performa cepat dan dapat diprediksi untuk aplikasi yang digunakan pengguna. Mekanisme utamanya adalah downgrade sisi server yang lancar ke pemrosesan standar untuk traffic yang melebihi batas dinamis, sehingga memastikan stabilitas aplikasi, bukan membuat permintaan gagal.

Fitur	Prioritas	Standar	Flex	Batch
Harga	75-100% lebih mahal dari Standar	Harga penuh	Diskon 50%	Diskon 50%
Latensi	Detik	Detik hingga menit	Menit (target 1–15 menit)	Hingga 24 jam
Keandalan	Tinggi (Tidak dapat dihilangkan)	Tinggi / Sedang-tinggi	Upaya terbaik (Dapat dihilangkan)	Tinggi (untuk throughput)
Antarmuka	Sinkron	Sinkron	Sinkron	Asinkron

Manfaat utama

Latensi rendah: Dirancang untuk waktu respons kedua untuk alat AI interaktif, yang digunakan pengguna.
Keandalan tinggi: Traffic diperlakukan dengan tingkat kekritisan tertinggi dan tidak dapat dihilangkan.
Degradasi lancar: Lonjakan traffic yang melebihi batas dinamis secara otomatis di-downgrade ke tingkat Standar untuk diproses, bukan gagal, sehingga mencegah gangguan layanan.
Gesekan rendah: Menggunakan metode sinkron generateContent yang sama dengan tingkat standar dan Flex.

Kasus penggunaan

Pemrosesan prioritas ideal untuk alur kerja penting bisnis yang mengutamakan performa dan keandalan.

Aplikasi AI interaktif: Chatbot dan kopilot layanan pelanggan yang pengguna membayar premium dan mengharapkan respons yang cepat dan konsisten.
Mesin keputusan real-time: Sistem yang memerlukan hasil yang sangat andal dan berlatensi rendah seperti triase tiket langsung atau deteksi penipuan.
Fitur pelanggan premium: Developer yang perlu menjamin tujuan tingkat layanan yang lebih tinggi untuk pelanggan berbayar.

Batas kapasitas

Penggunaan prioritas memiliki batas kapasitasnya sendiri meskipun penggunaan dihitung terhadap batas kapasitas traffic interaktif secara keseluruhan. Batas kapasitas default untuk inferensi Prioritas adalah 0,3x batas kapasitas standar untuk Model / Tingkat

Logika downgrade lancar

Jika batas Prioritas terlampaui karena kemacetan, permintaan overflow akan otomatis dan lancar di-downgrade ke pemrosesan Standar, bukan gagal dengan error 503 atau 429. Permintaan yang di-downgrade akan ditagih dengan tarif standar, bukan tarif premium Prioritas.

Tanggung jawab klien

Pemantauan respons: Developer harus memantau x-gemini-service-tier header dalam respons API untuk mendeteksi apakah permintaan sering di-downgrade ke standard.
Percobaan ulang: Klien harus menerapkan logika percobaan ulang/backoff eksponensial untuk error standar, seperti DEADLINE_EXCEEDED.

Harga

Inferensi prioritas dihargai 75-100% lebih mahal daripada API standar dan ditagih per token.

Model yang didukung

Model berikut mendukung inferensi Prioritas:

Model	Inferensi prioritas
Gemini 3.1 Flash-Lite	✔️
Pratinjau Gemini 3.1 Flash-Lite	✔️
Pratinjau Gemini 3.1 Pro	✔️
Pratinjau Gemini 3 Flash	✔️
Pratinjau Gambar Gemini 3 Pro	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gambar Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

Langkah berikutnya

Baca opsi inferensi dan pengoptimalan Gemini lainnya:

Inferensi Flex untuk pengurangan biaya 50%.
Batch API untuk pemrosesan asinkron dalam waktu 24 jam.
Context caching untuk mengurangi biaya token input.