Uzun bağlam

Birçok Gemini modeli, 1 milyon veya daha fazla jetondan oluşan büyük bağlam pencerelerine sahiptir. Geçmişte büyük dil modelleri (LLM'ler), modele tek seferde aktarılabilen metin (veya jeton) miktarıyla önemli ölçüde sınırlıydı. Gemini'nin uzun bağlam penceresi, birçok yeni kullanım alanı ve geliştirici paradigması sunar.

Metin oluşturma veya çoklu modal girişler gibi durumlar için zaten kullandığınız kod, uzun bağlamda herhangi bir değişiklik yapılmadan çalışır.

Bu belgede, 1 milyon ve daha fazla parçadan oluşan bağlam aralıkları olan modelleri kullanarak neler başarabileceğinize dair genel bir bakış sunulmaktadır. Bu sayfada, bağlam penceresine kısaca göz atılır ve geliştiricilerin uzun bağlam hakkında nasıl düşünmesi gerektiği, uzun bağlamın gerçek dünyadaki çeşitli kullanım alanları ve uzun bağlamın kullanımını optimize etme yöntemleri ele alınır.

Belirli modellerin bağlam penceresi boyutları için Modeller sayfasına bakın.

Bağlam penceresi nedir?

Gemini modellerini kullanmanın temel yolu, modele bilgi (bağlam) göndermektir. Bu bilgi, model tarafından yanıt olarak kullanılır. Bağlam aralığı için kısa süreli hafıza benzetmesi yapılabilir. Bir kişinin kısa süreli hafızasında depolanabilecek bilgi miktarı sınırlıdır. Bu durum, üretken modeller için de geçerlidir.

Modellerin işleyiş şekli hakkında daha fazla bilgiyi üretken modeller kılavuzumuzda bulabilirsiniz.

Uzun bağlamı kullanmaya başlama

Üretken modellerin önceki sürümleri tek seferde yalnızca 8.000 jeton işleyebiliyordu. Daha yeni modeller, 32.000 hatta 128.000 jetonu kabul ederek bu sınırı daha da aştı. Gemini, 1 milyon jetonu kabul edebilen ilk modeldir.

Pratikte 1 milyon jeton şöyle görünür:

  • 50.000 satır kod (satır başına standart 80 karakter)
  • Son 5 yıl içinde gönderdiğiniz tüm kısa mesajlar
  • 8 adet ortalama uzunlukta İngilizce roman
  • Ortalama uzunlukta 200'den fazla podcast bölümünün transkriptleri

Diğer birçok modelde yaygın olan daha sınırlı bağlam pencereleri genellikle eski mesajları keyfi olarak bırakma, içeriği özetleme, vektör veritabanlarıyla RAG kullanma veya jetonları kaydetmek için istemleri filtreleme gibi stratejiler gerektirir.

Bu teknikler belirli senaryolarda değerli olmaya devam etse de Gemini'nin geniş bağlam penceresi daha doğrudan bir yaklaşımı teşvik eder: İlgili tüm bilgileri önceden sunma. Gemini modelleri, büyük bağlam özellikleriyle özel olarak tasarlandığından bağlam içi öğrenme konusunda güçlü bir performans gösterir. Örneğin, yalnızca bağlama dayalı eğitim materyallerini (500 sayfalık bir referans dil bilgisi, bir sözlük ve yaklaşık 400 paralel cümle) kullanarak Gemini, İngilizceden Kalamang'a (200'den az kişinin konuştuğu bir Papua dili) çevirmeyi öğrendi. Bu çeviri, aynı materyalleri kullanan bir insan öğrenciye benzer bir kaliteye sahipti. Bu, Gemini'nin uzun bağlamı sayesinde sağlanan paradigma değişikliğini göstermektedir. Gemini, güçlü bağlam içi öğrenme sayesinde yeni olasılıklar sunar.

Uzun bağlam kullanım alanları

Çoğu üretken modelin standart kullanım alanı hâlâ metin girişi olsa da Gemini model ailesi, çok formatlı kullanım alanları için yeni bir paradigma sunuyor. Bu modeller metin, video, ses ve görselleri doğal olarak anlayabilir. Bunlara, kolaylık sağlamak için çoklu formatlı dosya türlerini kabul eden Gemini API de eşlik eder.

Uzun metin

Metin, LLM'lerle ilgili momentumun büyük bir kısmının temelini oluşturan zeka katmanı olduğunu kanıtladı. Daha önce de belirtildiği gibi, LLM'lerin pratik sınırlamasının büyük bir kısmı, belirli görevleri yapmak için yeterince büyük bir bağlam penceresine sahip olmamasından kaynaklanıyordu. Bu durum, almayla artırılmış üretim (RAG) ve modele dinamik olarak alakalı bağlamsal bilgiler sağlayan diğer tekniklerin hızla benimsenmesine yol açtı. Artık daha da büyük bağlam pencereleriyle yeni kullanım alanlarına olanak tanıyan yeni teknikler kullanıma sunuluyor.

Metne dayalı uzun bağlam için ortaya çıkan ve standart bazı kullanım alanları şunlardır:

  • Büyük metin kümelerini özetleme
    • Daha küçük bağlam modelleri içeren önceki özetleme seçenekleri, modele yeni jetonlar aktarılırken önceki bölümlerin durumunu korumak için kayan bir pencere veya başka bir teknik gerektiriyordu.
  • Soru sorma ve yanıtlama
    • Geçmişte bu, bağlamın sınırlı olması ve modellerin gerçekleri hatırlama oranının düşük olması nedeniyle yalnızca RAG ile mümkündü.
  • Temsilci tabanlı iş akışları
    • Metin, temsilcilerin yaptıkları ve yapmaları gerekenlerle ilgili durumu nasıl tuttuklarının temelini oluşturur. Dünya ve temsilcinin hedefi hakkında yeterli bilgiye sahip olmamak, temsilcilerin güvenilirliğiyle ilgili bir sınırlamadır.

Çok sayıda bağlam içi öğrenme, uzun bağlam modellerinin sunduğu en benzersiz özelliklerden biridir. Araştırmalar, modele bir görevle ilgili bir veya birkaç örnek sunulan yaygın "tek atış" ya da "çok atışlı" örnek paradigmasının yüzlerce, binlerce hatta yüz binlerce örnekle ölçeklendirilmesinin yeni model özelliklerine yol açabileceğini göstermiştir. Bu çok atışlı yaklaşımın, belirli bir görev için ince ayarlanmış modellere benzer şekilde performans gösterdiği de gösterilmiştir. Gemini modelinin performansının henüz üretime sunmak için yeterli olmadığı kullanım alanları için çok çekimli yaklaşımı deneyebilirsiniz. Uzun bağlam optimizasyonu bölümünde daha ayrıntılı olarak inceleyeceğiniz gibi, bağlam önbelleğe alma, bu tür yüksek giriş jetonu iş yükünü çok daha ekonomik hale getirir ve hatta bazı durumlarda gecikmeyi azaltır.

Uzun video

Video içeriğinin yararlılığı, uzun süredir medyanın erişilebilir olmaması nedeniyle kısıtlanıyordu. İçerikleri gözden geçirmek zordu, transkriptler genellikle videonun nüanslarını yakalayamıyordu ve çoğu araç resim, metin ve sesi birlikte işlemiyordu. Gemini'nin uzun bağlamlı metin özellikleri, çok formatlı girişlerle ilgili soruları tutarlı bir performansla akıl yürüterek yanıtlama olanağı sunar.

Uzun video bağlamında ortaya çıkan ve standart bazı kullanım alanları şunlardır:

  • Videolu soru sorma ve yanıtlama
  • Google'ın Project Astra'sında gösterildiği gibi video belleği
  • Video altyazısı ekleme
  • Mevcut meta verileri yeni çok modlu anlayışla zenginleştiren video öneri sistemleri
  • Veri kümesine ve ilişkili video meta verilerine bakarak videoları özelleştirme ve ardından videoların izleyiciyle alakalı olmayan bölümlerini kaldırma
  • Video içeriği moderasyon
  • Gerçek zamanlı video işleme

Videolarla çalışırken videoların jetonlara nasıl dönüştürüldüğünü dikkate almak önemlidir. Bu işlem, faturalandırmayı ve kullanım sınırlarını etkiler. Video dosyalarıyla istem oluşturma hakkında daha fazla bilgiyi İstem oluşturma kılavuzunda bulabilirsiniz.

Uzun sesli içerikler

Gemini modelleri, sesi anlayabilen ilk doğal çok modlu büyük dil modelleriydi. Geliştiricilerin sesleri işlemek için kullandıkları geleneksel iş akışında, konuşma metne dönüştürme ve metin metne dönüştürme gibi alana özgü birden fazla modelin birlikte kullanılması gerekir. Bu durum, birden fazla gidiş dönüş isteği gerçekleştirmek için gereken ek gecikmeye ve genellikle birden fazla model kurulumunun bağlantısız mimarilerine bağlı olarak performansın düşmesine neden oldu.

Ses bağlamı için yeni ve standart kullanım alanlarından bazıları şunlardır:

  • Gerçek zamanlı metne dönüştürme ve çeviri
  • Podcast / videolarda soru sorma ve yanıtlama
  • Toplantıyı metne dönüştürme ve özetleme
  • Sesli asistanlar

Ses dosyaları ile istem verme hakkında daha fazla bilgiyi İstem verme kılavuzunda bulabilirsiniz.

Uzun bağlam optimizasyonları

Uzun bağlam ve Gemini modelleriyle çalışırken birincil optimizasyon, bağlam önbelleğe alma özelliğini kullanmaktır. Önceden tek bir istekte çok sayıda jetonun işlenememesi dışındaki diğer önemli kısıtlama maliyetti. Kullanıcının 10 PDF, bir video ve bazı çalışma dokümanı yüklediği bir "verilerinizle sohbet edin" uygulamanız varsa bu istekleri işlemek ve bağlam penceresine taşınan jetonlar için önemli miktarda ödeme yapmak amacıyla daha karmaşık bir aramayı artırılmış oluşturma (RAG) aracı/çerçevesi kullanmanız gerekirdi. Artık kullanıcının yüklediği dosyaları önbelleğe alabilir ve saatlik olarak depolamak için ödeme yapabilirsiniz. Örneğin, Gemini Flash ile istek başına giriş / çıkış maliyeti standart giriş / çıkış maliyetinden yaklaşık 4 kat daha azdır. Bu nedenle, kullanıcı verileri ile yeterince sohbet ederse geliştirici olarak büyük bir maliyet tasarrufu elde edersiniz.

Uzun bağlam sınırlamaları

Bu kılavuzun çeşitli bölümlerinde, Gemini modellerinin çeşitli samanlıkta iğne arama değerlendirmelerinde nasıl yüksek performansa ulaştığından bahsettik. Bu testler, aradığınız tek bir iğnenin bulunduğu en temel kurulumu dikkate alır. Birden fazla "iğne"niz veya aradığınız belirli bilgiler olabileceği durumlarda model aynı doğrulukla performans göstermez. Performans, bağlama bağlı olarak büyük ölçüde değişiklik gösterebilir. Doğru bilgileri almak ile maliyet arasında doğal bir denge olduğu için bu konuyu dikkate almanız önemlidir. Tek bir sorgu için yaklaşık% 99 oranında sonuç alabilirsiniz ancak bu sorguyu her gönderdiğinizde giriş jetonu maliyetini ödemeniz gerekir. Dolayısıyla, %99 performansa ihtiyacınız varsa 100 bilginin alınması için büyük olasılıkla 100 istek göndermeniz gerekir. Bu, bağlam önbelleğe almanın, performansı yüksek tutarken Gemini modellerini kullanmayla ilişkili maliyeti önemli ölçüde azaltabileceğine dair iyi bir örnektir.

SSS

Sorgumu bağlam penceresine yerleştirmenin en iyi yeri neresidir?

Çoğu durumda, özellikle toplam bağlam uzunsa sorgunuzu / sorunuzu istemin sonuna (diğer tüm bağlamlardan sonra) koyarsanız modelin performansı daha iyi olur.

Bir sorguya daha fazla jeton eklediğimde model performansını kaybeder miyim?

Genel olarak, modele jeton iletilmesi gerekmiyorsa bunları iletmemek en iyisidir. Ancak, bazı bilgiler içeren büyük bir jeton grubunuz varsa ve bu bilgilerle ilgili soru sormak istiyorsanız model bu bilgileri ayıklayabilir (birçok durumda% 99'a varan doğruluk).

Uzun bağlamlı sorgularla maliyetimi nasıl düşürebilirim?

Çok kez yeniden kullanmak istediğiniz benzer bir jeton / bağlam kümeniz varsa bağlam önbelleğe alma, bu bilgilerle ilgili soru sorma maliyetlerini azaltmanıza yardımcı olabilir.

Bağlam uzunluğu, model gecikmesini etkiler mi?

Boyuttan bağımsız olarak her istekte belirli bir miktarda gecikme vardır ancak genellikle daha uzun sorguların gecikmesi daha yüksek olur (ilk jetona kadar geçen süre).