Öncelik çıkarımı

Gemini Priority API, daha düşük gecikme süresi ve en yüksek güvenilirlik gerektiren, işletme açısından kritik iş yükleri için tasarlanmış premium bir çıkarım katmanıdır. Bu katman, premium fiyat noktasında sunulur. Öncelikli katman trafiğine, standart API ve esnek katman trafiğine göre öncelik verilir.

Öncelikli çıkarım, GenerateContent API ve Interactions API uç noktalarında 2. ve 3. katman kullanıcıları tarafından kullanılabilir.

Öncelik özelliğini kullanma

Öncelik katmanını kullanmak için istek gövdesindeki service_tier alanını priority olarak ayarlayın. Alan atlanırsa varsayılan katman standarttır.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'priority'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

Öncelikli çıkarımın işleyiş şekli

Öncelikli çıkarım, istekleri yüksek önem dereceli bilgi işlem kuyruklarına yönlendirerek kullanıcıya yönelik uygulamalar için öngörülebilir ve hızlı performans sunar. Bu özelliğin temel mekanizması, dinamik sınırları aşan trafik için sunucu tarafında standart işleme sorunsuz bir şekilde geçiş yaparak isteği başarısız kılmak yerine uygulamanın kararlılığını sağlamaktır.

Özellik Öncelik Standart Yaratıcılığınızı Toplu
Fiyatlandırma Standart'tan% 75-100 daha fazla Tam fiyat %50 indirim %50 indirim
Gecikme Saniye Saniyelerden dakikalara Dakikalar (1-15 dakika hedef) En fazla 24 saat
Güvenilirlik Yüksek (tüy dökmeyen) Yüksek / Biraz yüksek En iyi sonuç (Sheddable) Yüksek (işleme hızı için)
Arayüz Senkronize Senkronize Senkronize Eşzamansız

Temel avantajlar

  • Düşük gecikme: Etkileşimli, kullanıcıya yönelik yapay zeka araçları için saniyelik yanıt süreleri sunacak şekilde tasarlanmıştır.
  • Yüksek güvenilirlik: Trafik en yüksek öncelik seviyesinde ele alınır ve kesinlikle bırakılamaz.
  • Kontrollü azalma: Dinamik sınırları aşan trafik artışları, başarısız olmak yerine işleme için otomatik olarak Standart katmanına düşürülür ve hizmet kesintileri önlenir.
  • Kolay: Standart ve Flex katmanlarıyla aynı senkron generateContent yöntemi kullanılır.

Kullanım alanları

Öncelikli işleme, performans ve güvenilirliğin en önemli olduğu, işletme açısından kritik iş akışları için idealdir.

  • Etkileşimli yapay zeka uygulamaları: Kullanıcıların premium ödeme yaptığı ve hızlı, tutarlı yanıtlar beklediği müşteri hizmetleri sohbet botları ve yardımcı pilotlar.
  • Anlık karar motorları: Canlı bilet önceliklendirme veya sahtekarlık tespiti gibi yüksek güvenilirlik ve düşük gecikme süresi gerektiren sistemler.
  • Premium müşteri özellikleri: Ücretli müşteriler için daha yüksek hizmet düzeyi hedefleri (SLO'lar) garanti etmesi gereken geliştiriciler.

Hız sınırları

Öncelikli tüketim, genel etkileşimli trafik hızı sınırlarına dahil edilse de kendi hız sınırlarına sahiptir. Öncelikli çıkarım için varsayılan sıklık sınırları Model / Katman için standart sıklık sınırının 0,3 katıdır.

Kontrollü sürüm düşürme mantığı

Yoğunluk nedeniyle öncelik sınırları aşılırsa taşma istekleri 503 veya 429 hatasıyla başarısız olmak yerine otomatik olarak ve sorunsuz bir şekilde Standart işleme'ye düşürülür. Düşürülmüş istekler, öncelikli premium ücretiyle değil, standart ücretle faturalandırılır.

Müşterinin sorumluluğu

  • Yanıt izleme: Geliştiriciler, isteklerin sık sık standard'e düşürülüp düşürülmediğini tespit etmek için API yanıt gövdesindeki service_tier değerini izlemelidir.
  • Yeniden denemeler: İstemciler, DEADLINE_EXCEEDED gibi standart hatalar için yeniden deneme mantığı/eksponansiyel geri yükleme uygulamalıdır.

Fiyatlandırma

Öncelikli çıkarım, standart API'den% 75-100 daha yüksek bir fiyata sunulur ve jeton başına faturalandırılır.

Desteklenen modeller

Aşağıdaki modellerde öncelikli çıkarım desteklenir:

Model Öncelik çıkarımı
Gemini 3.1 Flash-Lite Önizlemesi ✔️
Gemini 3.1 Pro Önizlemesi ✔️
Gemini 3 Flash Önizlemesi ✔️
Gemini 3 Pro ile Görüntü Önizlemesi ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

Sırada ne var?

Gemini'ın diğer çıkarım ve optimizasyon seçenekleri hakkında bilgi edinin: