Gemini Priority API, daha düşük gecikme süresi ve en yüksek güvenilirlik gerektiren, işletme açısından kritik iş yükleri için tasarlanmış premium bir çıkarım katmanıdır. Bu katman, premium fiyat noktasında sunulur. Öncelikli katman trafiğine, standart API ve esnek katman trafiğine göre öncelik verilir.
Öncelikli çıkarım, GenerateContent API ve Interactions API uç noktalarında 2. ve 3. katman kullanıcıları tarafından kullanılabilir.
Öncelik özelliğini kullanma
Öncelik katmanını kullanmak için istek gövdesindeki service_tier alanını priority olarak ayarlayın. Alan atlanırsa varsayılan katman standarttır.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'priority'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Öncelikli çıkarımın işleyiş şekli
Öncelikli çıkarım, istekleri yüksek önem dereceli bilgi işlem kuyruklarına yönlendirerek kullanıcıya yönelik uygulamalar için öngörülebilir ve hızlı performans sunar. Bu özelliğin temel mekanizması, dinamik sınırları aşan trafik için sunucu tarafında standart işleme sorunsuz bir şekilde geçiş yaparak isteği başarısız kılmak yerine uygulamanın kararlılığını sağlamaktır.
| Özellik | Öncelik | Standart | Yaratıcılığınızı | Toplu |
|---|---|---|---|---|
| Fiyatlandırma | Standart'tan% 75-100 daha fazla | Tam fiyat | %50 indirim | %50 indirim |
| Gecikme | Saniye | Saniyelerden dakikalara | Dakikalar (1-15 dakika hedef) | En fazla 24 saat |
| Güvenilirlik | Yüksek (tüy dökmeyen) | Yüksek / Biraz yüksek | En iyi sonuç (Sheddable) | Yüksek (işleme hızı için) |
| Arayüz | Senkronize | Senkronize | Senkronize | Eşzamansız |
Temel avantajlar
- Düşük gecikme: Etkileşimli, kullanıcıya yönelik yapay zeka araçları için saniyelik yanıt süreleri sunacak şekilde tasarlanmıştır.
- Yüksek güvenilirlik: Trafik en yüksek öncelik seviyesinde ele alınır ve kesinlikle bırakılamaz.
- Kontrollü azalma: Dinamik sınırları aşan trafik artışları, başarısız olmak yerine işleme için otomatik olarak Standart katmanına düşürülür ve hizmet kesintileri önlenir.
- Kolay: Standart ve Flex katmanlarıyla aynı senkron
generateContentyöntemi kullanılır.
Kullanım alanları
Öncelikli işleme, performans ve güvenilirliğin en önemli olduğu, işletme açısından kritik iş akışları için idealdir.
- Etkileşimli yapay zeka uygulamaları: Kullanıcıların premium ödeme yaptığı ve hızlı, tutarlı yanıtlar beklediği müşteri hizmetleri sohbet botları ve yardımcı pilotlar.
- Anlık karar motorları: Canlı bilet önceliklendirme veya sahtekarlık tespiti gibi yüksek güvenilirlik ve düşük gecikme süresi gerektiren sistemler.
- Premium müşteri özellikleri: Ücretli müşteriler için daha yüksek hizmet düzeyi hedefleri (SLO'lar) garanti etmesi gereken geliştiriciler.
Hız sınırları
Öncelikli tüketim, genel etkileşimli trafik hızı sınırlarına dahil edilse de kendi hız sınırlarına sahiptir. Öncelikli çıkarım için varsayılan sıklık sınırları Model / Katman için standart sıklık sınırının 0,3 katıdır.
Kontrollü sürüm düşürme mantığı
Yoğunluk nedeniyle öncelik sınırları aşılırsa taşma istekleri 503 veya 429 hatasıyla başarısız olmak yerine otomatik olarak ve sorunsuz bir şekilde Standart işleme'ye düşürülür. Düşürülmüş istekler, öncelikli premium ücretiyle değil, standart ücretle faturalandırılır.
Müşterinin sorumluluğu
- Yanıt izleme: Geliştiriciler, isteklerin sık sık
standard'e düşürülüp düşürülmediğini tespit etmek için API yanıt gövdesindekiservice_tierdeğerini izlemelidir. - Yeniden denemeler: İstemciler,
DEADLINE_EXCEEDEDgibi standart hatalar için yeniden deneme mantığı/eksponansiyel geri yükleme uygulamalıdır.
Fiyatlandırma
Öncelikli çıkarım, standart API'den% 75-100 daha yüksek bir fiyata sunulur ve jeton başına faturalandırılır.
Desteklenen modeller
Aşağıdaki modellerde öncelikli çıkarım desteklenir:
| Model | Öncelik çıkarımı |
|---|---|
| Gemini 3.1 Flash-Lite Önizlemesi | ✔️ |
| Gemini 3.1 Pro Önizlemesi | ✔️ |
| Gemini 3 Flash Önizlemesi | ✔️ |
| Gemini 3 Pro ile Görüntü Önizlemesi | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Sırada ne var?
Gemini'ın diğer çıkarım ve optimizasyon seçenekleri hakkında bilgi edinin:
- %50 maliyet azaltımı için esnek çıkarım.
- 24 saat içinde eş zamansız işleme için Batch API.
- Giriş jetonu maliyetlerini azaltmak için bağlam önbelleğe alma.