Gemini API optimizasyonu ve çıkarımı

Gemini API, belirli iş yükü ihtiyaçlarınıza göre hız, maliyet ve güvenilirlik arasında denge kurmanıza yardımcı olacak çeşitli optimizasyon mekanizmaları sunar. İster gerçek zamanlı sohbet botları oluşturuyor ister yoğun çevrimdışı veri işleme işlem hatları çalıştırıyor olun, doğru paradigmayı seçmek maliyetleri önemli ölçüde azaltabilir veya performansı artırabilir.

Özellik Standart Yaratıcılığınızı Öncelik Toplu Önbelleğe alma
Fiyatlandırma Tam Fiyat %50 indirim Standarttan% 75 ila% 100 daha fazla %50 indirim Kullanıma göre hesaplanan jeton depolama alanı
Gecikme Saniyelerden dakikalara Dakikalar (1-15 dakika hedef) Düşük (saniye) En fazla 24 saat Daha hızlı ilk jeton süresi
Güvenilirlik Yüksek / Biraz yüksek En iyi sonuç (Sheddable) Yüksek (tüy dökmeyen) Yüksek (işleme hızı için) Yok
Arayüz Senkronize Senkronize Senkronize Eşzamansız Kaydedilmiş durum
En iyi kullanım alanı Genel uygulama iş akışları Acil olmayan sıralı zincirler Üretim, kullanıcıya yönelik uygulamalar Büyük veri kümeleri, çevrimdışı değerlendirmeler Aynı dosya üzerinde yinelenen sorgular

Çıkarım hizmeti katmanları (Eşzamanlı)

Standart oluşturma çağrılarınızda service_tier parametresini ileterek gecikme süresi için optimize edilmiş ve maliyet için optimize edilmiş senkron trafik arasında geçiş yapabilirsiniz.

Standart çıkarım (varsayılan)

Standart katman, sıralı içerik oluşturma için varsayılan seçenektir. Ek primler veya yoğun kuyruklar olmadan normal yanıt süreleri sağlar.

  • Gecikme: Saniyelerden dakikalara kadar.
  • Fiyat: Standart fiyatlandırma.
  • En uygun kullanım alanı: En etkileşimli günlük uygulamalar.

Öncelikli çıkarım (Gecikme için optimize edilmiş)

Öncelikli işleme, isteklerinizi yüksek önem dereceli bilgi işlem kuyruklarına yönlendirir. Bu trafik kesinlikle öncelikli değildir (diğer katmanlar tarafından asla önceliklendirilmez) ve en yüksek güvenilirliği sunar. Dinamik öncelik sınırlarını aşarsanız sistem, isteği hatayla başarısız kılmak yerine sorunsuz bir şekilde standart işleme düşürür.

  • Gecikme: Ultra düşük (milisaniyelerden saniyelere).
  • Fiyat: Standart ücretlerin% 75 ila% 100 üzerinde.
  • En uygun kullanım alanları: Canlı müşteri chatbot'ları, gerçek zamanlı sahtekarlık tespiti ve iş açısından kritik öneme sahip yardımcılar.

Esnek çıkarım (maliyet açısından optimize edilmiş)

Esnek çıkarım, fırsatçı ve yoğun olmayan zamanlardaki işlem kapasitesini kullanarak standart ücretlere kıyasla% 50 indirim sunar. İstekler eşzamanlı olarak işlenir. Bu nedenle, toplu nesneleri yönetmek için kodu yeniden yazmanız gerekmez. Bu trafik "kaldırılabilir" bir trafik olduğundan, sistemde standart trafik artışları yaşanırsa istekler öncelikli olarak işlenebilir.

  • Gecikme: Garanti edilmez, hedef 1-15 dakikadır.
  • Fiyat: Standart fiyatlandırmanın% 50'si (jeton başına faturalandırılır).
  • En uygun olduğu durumlar: N+1 çağrısının, N çağrısının çıkışına, arka plandaki CRM güncellemelerine ve çevrimdışı değerlendirmelere bağlı olduğu çok adımlı aracı iş akışları.

Toplu API (toplu, eşzamansız)

Toplu İşlem API'si, büyük hacimli istekleri standart maliyetin% 50'si karşılığında eşzamansız olarak işlemek için tasarlanmıştır. İstekleri satır içi sözlükler olarak veya JSONL giriş dosyası (en fazla 2 GB) kullanarak gönderebilirsiniz. İstekleri, 24 saatlik hedef yanıt süresiyle arka plan işleme hızına sahip kuyrukları kullanarak işler.

  • Gecikme: Yüksek (24 saate kadar).
  • Fiyat: Standart fiyatın% 50'si.
  • En uygun olduğu durumlar: Büyük veri kümelerini önceden işleme, düzenli regresyon test paketleri çalıştırma ve yüksek hacimli resim veya yerleştirme oluşturma.

Bağlamı önbelleğe alma (giriş tasarrufu)

Bağlamı önbelleğe alma, önemli bir ilk bağlama kısa isteklerle tekrar tekrar başvurulduğunda kullanılır.

  • Örtülü önbelleğe alma: Gemini 2.5 ve daha yeni modellerde otomatik olarak etkinleştirilir. İsteğiniz, yaygın istem ön eklerine dayalı olarak mevcut önbelleklerle eşleşirse sistem maliyet tasarruflarını aktarır.
  • Açık Önbelleğe Alma: Belirli bir geçerlilik süresine (TTL) sahip bir önbellek nesnesini manuel olarak oluşturabilirsiniz. Oluşturulduktan sonra, aynı gövde yükünün tekrar tekrar iletilmesini önlemek için sonraki isteklerde önbelleğe alınmış jetonlara başvurursunuz.
  • Fiyat: Önbellek jetonu sayısı ve depolama süresine (TTL) göre faturalandırılır.
  • En İyi Kullanım Alanları: Kapsamlı sistem talimatları içeren chatbot'lar, uzun video dosyalarının tekrarlanan analizi veya büyük doküman kümelerine yönelik sorgular.