Öncelik çıkarımı
Gemini Priority API, daha düşük gecikme süresi ve en yüksek güvenilirlik gerektiren, işletme açısından kritik iş yükleri için tasarlanmış premium bir çıkarım katmanıdır. Bu katman, premium fiyat noktasında sunulur. Öncelikli katman trafiğine, standart API ve esnek katman trafiğine göre öncelik verilir.
Öncelikli çıkarım, Etkileşimler API uç noktalarında kullanılabilir.
Öncelik özelliğini kullanma
Öncelikli katmanı kullanmak için isteğinizdeki service_tier alanını priority olarak ayarlayın. Alan atlanırsa varsayılan katman standarttır.
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
serviceTier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
Öncelikli çıkarımın işleyiş şekli
Öncelikli çıkarım, istekleri yüksek önem dereceli bilgi işlem kuyruklarına yönlendirerek kullanıcıya yönelik uygulamalar için tahmin edilebilir ve hızlı performans sunar. Bu özelliğin temel mekanizması, dinamik sınırları aşan trafik için sunucu tarafında standart işleme sorunsuz bir şekilde geçiş yaparak isteği başarısız kılmak yerine uygulama kararlılığını sağlamaktır.
| Özellik | Öncelik | Standart | Yaratıcılığınızı | Toplu |
|---|---|---|---|---|
| Fiyatlandırma | Standart'tan% 75-100 daha fazla | Tam fiyat | %50 indirim | %50 indirim |
| Gecikme | Saniye | Saniyelerden dakikalara | Dakikalar (1-15 dakika hedef) | En fazla 24 saat |
| Güvenilirlik | Yüksek (tüy dökmeyen) | Yüksek / Biraz yüksek | En iyi sonuç (Sheddable) | Yüksek (işleme hızı için) |
| Arayüz | Senkronize | Senkronize | Senkronize | Eşzamansız |
Temel avantajlar
- Düşük gecikme: Etkileşimli, kullanıcıya yönelik yapay zeka araçları için saniyelik yanıt süreleri sunacak şekilde tasarlanmıştır.
- Yüksek güvenilirlik: Trafik en yüksek öncelik seviyesinde ele alınır ve kesinlikle bırakılmaz.
- Kontrollü azalma: Dinamik sınırları aşan trafik artışları, başarısız olmak yerine işleme için otomatik olarak Standart katmanına düşürülür ve hizmet kesintileri önlenir.
- Kolaylık: Standart ve Flex katmanlarıyla aynı senkron
createyöntemi kullanılır.
Kullanım alanları
Öncelikli işleme, performans ve güvenilirliğin en önemli olduğu, işletme açısından kritik iş akışları için idealdir.
- Etkileşimli yapay zeka uygulamaları: Kullanıcıların premium ödeme yaptığı ve hızlı, tutarlı yanıtlar beklediği müşteri hizmetleri sohbet botları ve yardımcı pilotlar.
- Anlık karar motorları: Canlı bilet önceliklendirme veya sahtekarlık tespiti gibi yüksek güvenilirlik ve düşük gecikme süresi gerektiren sistemler.
- Premium müşteri özellikleri: Ücretli müşteriler için daha yüksek hizmet düzeyi hedefleri (SLO'lar) garanti etmesi gereken geliştiriciler.
Hız sınırları
Öncelikli tüketim, genel etkileşimli trafik hızı sınırlarına dahil edilse de kendi hız sınırlarına sahiptir. Öncelikli çıkarım için varsayılan sıklık sınırları Model / Katman için standart sıklık sınırının 0,3 katıdır.
Kontrollü sürüm düşürme mantığı
Yoğunluk nedeniyle öncelik sınırları aşılırsa taşma istekleri, 503 veya 429 hatasıyla başarısız olmak yerine otomatik olarak ve sorunsuz bir şekilde standart işleme düşürülür. Düşürülmüş istekler, öncelikli premium ücretiyle değil, standart ücretle faturalandırılır.
Müşterinin sorumluluğu
- Yanıt izleme: Geliştiriciler, isteklerin sıklıkla
x-gemini-service-tiersürümüne düşürülüp düşürülmediğini tespit etmek için API yanıtındakistandardbaşlığını izlemelidir. - Yeniden denemeler: İstemciler,
DEADLINE_EXCEEDEDgibi standart hatalar için yeniden deneme mantığı/eksponansiyel geri yükleme uygulamalıdır.
Fiyatlandırma
Öncelikli çıkarım, standart API'den% 75-100 daha fazla fiyatlandırılır ve jeton başına faturalandırılır.
Desteklenen modeller
Aşağıdaki modellerde öncelikli çıkarım desteklenir:
| Model | Öncelik çıkarımı |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite Önizlemesi | ✔️ |
| Gemini 3.1 Pro Önizlemesi | ✔️ |
| Gemini 3 Flash Önizlemesi | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Sırada ne var?
- Maliyet azaltımı için esnek çıkarım.
- Jetonlar: Jetonları anlayın.