Uzun bağlam

Gemini 2.0 Flash ve Gemini 1.5 Flash 1 milyon parçalık bağlam penceresine, Gemini 1.5 Pro ise 2 milyon parçalık bağlam penceresine sahiptir. Geçmişte büyük dil modelleri (LLM'ler), modele tek seferde aktarılabilen metin (veya jeton) miktarıyla önemli ölçüde sınırlıydı. Neredeyse mükemmel bir getirme özelliği (>%99) sunan Gemini 1.5 uzun bağlam penceresi, birçok yeni kullanım alanı ve geliştirici paradigmasının kilidini açar.

Metin oluşturma veya çoklu modal girişler gibi durumlar için zaten kullandığınız kod, uzun bağlamla birlikte hazır olarak çalışır.

Bu kılavuzda, bağlam penceresinin temel özelliklerini, geliştiricilerin uzun bağlam hakkında nasıl düşünmesi gerektiğini, uzun bağlamın çeşitli gerçek kullanım alanlarını ve uzun bağlamın kullanımını optimize etme yollarını kısaca inceleyeceksiniz.

Bağlam penceresi nedir?

Gemini modellerini kullanmanın temel yolu, modele bilgi (bağlam) göndermektir. Bu bilgi, model tarafından yanıt olarak kullanılır. Bağlam penceresini kısa süreli bellekle karşılaştırabiliriz. Bir kişinin kısa süreli hafızasında depolanabilecek bilgi miktarı sınırlıdır. Üretken modeller için de durum aynıdır.

Modellerin işleyiş şekli hakkında daha fazla bilgiyi üretken modeller kılavuzumuzda bulabilirsiniz.

Uzun bağlamı kullanmaya başlama

Son birkaç yılda oluşturulan üretken modellerin çoğu,tek seferde yalnızca 8.000 jeton işleyebiliyordu. Yeni modeller, 32.000 veya 128.000 jetonu kabul ederek bu sınırı daha da genişletti. Gemini 1.5, 1 milyon jetonu kabul edebilen ilk modeldir. Artık Gemini 1.5 Pro ile 2 milyon jetonu kabul edebilir.

Pratikte 1 milyon jeton şöyle görünür:

  • 50.000 satır kod (satır başına standart 80 karakter)
  • Son 5 yıl içinde gönderdiğiniz tüm kısa mesajlar
  • 8 adet ortalama uzunlukta İngilizce roman
  • Ortalama uzunlukta 200'den fazla podcast bölümünün transkriptleri

Modeller daha fazla bağlam bilgisi alabilir olsa da büyük dil modellerinin kullanımıyla ilgili yaygın görüşlerin çoğu, modelde bu doğal sınırlamanın olduğunu varsayar. Ancak 2024'ten itibaren bu durum geçerli değildir.

Küçük bağlam pencerelerinin sınırlamasını ele almak için kullanılan bazı yaygın stratejiler şunlardır:

  • Yeni metin geldikçe eski mesajları / metni bağlam penceresinden keyfi olarak bırakma
  • Bağlantı penceresi dolmaya yaklaştığında önceki içeriği özetleme ve özetle değiştirme
  • Verileri bağlam penceresinden bir vektör veritabanına taşımak için RAG'yi semantik aramayla kullanma
  • Jetonları kaydetmek için istemlerden belirli metinleri/karakterleri kaldırmak üzere deterministik veya üretken filtreler kullanma

Bunların çoğu belirli durumlarda hâlâ geçerli olsa da varsayılan başlangıç noktası artık tüm jetonları bağlam penceresine yerleştirmektir. Gemini modelleri, uzun bir bağlam penceresiyle özel olarak tasarlandığından bağlam içi öğrenme konusunda çok daha yeteneklidir. Örneğin, yalnızca eğitici materyallerle (500 sayfalık bir referans dil bilgisi kitabı, bir sözlük ve yaklaşık 400 ek paralel cümle) tüm bağlamlarda sağlanan Gemini 1.5 Pro ve Gemini 1.5 Flash, İngilizceden Kalamang'a çevirmeyi öğrenebilir. Kalamang, 200'den az konuşmacısı olan ve bu nedenle neredeyse hiç internette bulunmayan bir Papua dilidir. Gemini 1.5 Pro ve Gemini 1.5 Flash, aynı materyallerden öğrenen bir kişiye benzer kalitede çeviri yapar.

Bu örnek, Gemini modellerinin uzun bağlam ve bağlam içi öğrenme özellikleriyle neler yapabileceğinizi düşünmeye nasıl başlayabileceğinizi vurgulamaktadır.

Uzun bağlam kullanım alanları

Çoğu üretken modelin standart kullanım alanı hâlâ metin girişi olsa da Gemini 1.5 model ailesi, çok formatlı kullanım alanları için yeni bir paradigma sunuyor. Bu modeller metin, video, ses ve görselleri doğal olarak anlayabilir. Bunlara, kolaylık sağlamak için çoklu modal dosya türlerini kabul eden Gemini API de eşlik eder.

Uzun metin

Metin, LLM'lerle ilgili momentumun büyük bir kısmının temelini oluşturan zeka katmanı olduğunu kanıtladı. Daha önce de belirtildiği gibi, LLM'lerin pratik sınırlamasının büyük bir kısmı, belirli görevleri yapmak için yeterince büyük bir bağlam penceresine sahip olmamasından kaynaklanıyordu. Bu durum, modele dinamik olarak alakalı bağlamsal bilgiler sağlayan almayla artırılmış üretim (RAG) ve diğer tekniklerin hızla benimsenmesine yol açtı. Artık daha da büyük bağlam pencereleriyle (Gemini 1.5 Pro'da şu anda 2 milyona kadar) yeni kullanım alanlarına olanak tanıyan yeni teknikler kullanıma sunuluyor.

Metne dayalı uzun bağlam için ortaya çıkan ve standart bazı kullanım alanları şunlardır:

  • Büyük metin kümelerini özetleme
    • Daha küçük bağlam modelleri olan önceki özetleme seçenekleri, modele yeni jetonlar aktarılırken önceki bölümlerin durumunu korumak için kaydırmalı bir pencere veya başka bir teknik gerektiriyordu.
  • Soru sorma ve yanıtlama
    • Geçmişte bu, bağlamın sınırlı olması ve modellerin gerçekleri hatırlama oranının düşük olması nedeniyle yalnızca RAG ile mümkündü.
  • Temsilci iş akışları
    • Metin, temsilcilerin yaptıkları ve yapmaları gerekenlerle ilgili durumu nasıl tuttuklarının temelini oluşturur. Dünya ve temsilcinin hedefi hakkında yeterli bilgiye sahip olmamak, temsilcilerin güvenilirliğiyle ilgili bir sınırlamadır.

Çok sayıda bağlam içi öğrenme, uzun bağlam modellerinin sunduğu en benzersiz özelliklerden biridir. Araştırmalar, modele bir görevle ilgili bir veya birkaç örnek sunulan yaygın "tek atış" ya da "çok atışlı" örnek paradigmasının yüzlerce, binlerce hatta yüz binlerce örnekle ölçeklendirilmesinin yeni model özelliklerine yol açabileceğini göstermiştir. Bu çok atışlı yaklaşımın, belirli bir görev için ince ayarlanmış modellere benzer şekilde performans gösterdiği de gösterilmiştir. Gemini modelinin performansının henüz üretime sunmaya yeterli olmadığı kullanım alanları için çok çekimli yaklaşımı deneyebilirsiniz. Uzun bağlam optimizasyonu bölümünde daha ayrıntılı olarak inceleyeceğiniz gibi, bağlam önbelleğe alma, bu tür yüksek giriş jetonu iş yükünü çok daha ekonomik hale getirir ve hatta bazı durumlarda gecikmeyi azaltır.

Uzun video

Video içeriğinin yararlılığı, uzun süredir medyanın erişilebilir olmaması nedeniyle sınırlıydı. İçerikleri gözden geçirmek zordu, transkriptler genellikle videonun nüanslarını yakalayamıyordu ve çoğu araç resim, metin ve sesi birlikte işlemiyordu. Gemini 1.5 ile uzun bağlam metin özellikleri, çoklu formatlı girişlerle ilgili soruları tutarlı bir performansla akıl yürütme ve yanıtlama olanağı sunar. Gemini 1.5 Flash, 1 milyon parça içeren bir video yığınında iğne üzerinde test edildiğinde, bağlam penceresindeki videonun% 99,8'inden fazlasını hatırladı ve 1.5 Pro, Video-MME karşılaştırmasında en iyi performansa ulaştı.

Uzun video bağlamında ortaya çıkan ve standart kullanım alanlarından bazıları şunlardır:

  • Videolu soru sorma ve yanıtlama
  • Google'ın Project Astra'sında gösterildiği gibi video belleği
  • Video altyazısı ekleme
  • Mevcut meta verileri yeni çok modlu anlayışla zenginleştiren video öneri sistemleri
  • Veri kümesine ve ilişkili video meta verilerine bakarak videoları özelleştirme ve ardından videoların izleyiciyle alakalı olmayan bölümlerini kaldırma
  • Video içeriği moderasyon
  • Gerçek zamanlı video işleme

Videolarla çalışırken videoların jetonlara nasıl dönüştürüldüğünü dikkate almanız gerekir. Bu işlem, faturalandırma ve kullanım sınırlarını etkiler. Video dosyalarıyla istem oluşturma hakkında daha fazla bilgiyi İstem oluşturma kılavuzunda bulabilirsiniz.

Uzun sesli içerikler

Gemini 1.5 modelleri, sesi anlayabilen ilk doğal çok modlu büyük dil modelleriydi. Geliştiricilerin sesleri işlemek için kullandıkları geleneksel iş akışında, konuşma metne dönüştürme ve metin metne dönüştürme gibi alana özgü birden fazla modelin birlikte kullanılması gerekir. Bu durum, birden fazla gidiş dönüş isteği gerçekleştirmek için gereken ek gecikmeye ve genellikle birden fazla model kurulumunun bağlantısız mimarilerine bağlı olarak performansın düşmesine neden oldu.

Standart ses yığın değerlendirmelerinde Gemini 1.5 Pro, gizli sesi testlerin% 100'ünde, Gemini 1.5 Flash ise testlerin% 98,7'sinde bulabilir. Gemini 1.5 Flash, tek bir istekte 9,5 saate kadar ses kabul eder.Gemini 1.5 Pro ise 2 milyon parçalık bağlam penceresini kullanarak 19 saate kadar ses kabul edebilir. Ayrıca, 15 dakikalık ses kliplerinden oluşan bir test grubunda Gemini 1.5 Pro, ek giriş segmentasyonu ve ön işleme karmaşıklığı olmadan, konuşma metne dönüştürme konusunda uzman modellerden bile çok daha düşük bir kelime hatası oranı (WER) olan yaklaşık %5, 5'lik bir oran kaydeder.

Ses bağlamı için yeni ve standart kullanım alanlarından bazıları şunlardır:

  • Gerçek zamanlı metne dönüştürme ve çeviri
  • Podcast / videolarda soru sorma ve yanıtlama
  • Toplantıyı metne dönüştürme ve özetleme
  • Sesli asistanlar

Ses dosyaları ile istem verme hakkında daha fazla bilgiyi İstem verme kılavuzunda bulabilirsiniz.

Uzun bağlam optimizasyonları

Uzun bağlam ve Gemini 1.5 modelleriyle çalışırken birincil optimizasyon, bağlam önbelleğe alma özelliğini kullanmaktır. Önceden tek bir istekte çok sayıda jetonun işlenememesi dışındaki diğer önemli kısıtlama maliyetti. Kullanıcının 10 PDF, bir video ve bazı iş dokümanı yüklediği bir "verilerinizle sohbet edin" uygulamanız varsa bu istekleri işlemek ve bağlam penceresine taşınan jetonlar için önemli miktarda ödeme yapmak amacıyla daha karmaşık bir aramayı artırılmış oluşturma (RAG) aracı/çerçevesi kullanmanız gerekirdi. Artık kullanıcının yüklediği dosyaları önbelleğe alabilir ve saatlik olarak depolamak için ödeme yapabilirsiniz. Örneğin, Gemini 1.5 Flash ile istek başına giriş / çıkış maliyeti standart giriş / çıkış maliyetinden yaklaşık 4 kat daha azdır. Bu nedenle, kullanıcı verilerini yeterince kullanarak sohbet ederse geliştirici olarak büyük bir maliyet tasarrufu elde edersiniz.

Uzun bağlam sınırlamaları

Bu kılavuzun çeşitli bölümlerinde, Gemini 1.5 modellerinin çeşitli "iğne demet içinde" arama değerlendirmelerinde nasıl yüksek performansa ulaştığından bahsettik. Bu testler, aradığınız tek bir iğnenin bulunduğu en temel kurulumu dikkate alır. Birden fazla "iğne"niz veya aradığınız belirli bilgiler olabileceği durumlarda model aynı doğrulukla performans göstermez. Performans, bağlama bağlı olarak büyük ölçüde değişiklik gösterebilir. Doğru bilgileri almak ile maliyet arasında doğal bir denge olduğu için bu konuyu dikkate almanız önemlidir. Tek bir sorgu için yaklaşık% 99 sonuç alabilirsiniz ancak bu sorguyu her gönderdiğinizde giriş jetonu maliyetini ödemeniz gerekir. Dolayısıyla, %99 performansa ihtiyacınız varsa 100 bilginin alınması için büyük olasılıkla 100 istek göndermeniz gerekir. Bu, bağlam önbelleğe almanın, performansı yüksek tutarken Gemini modellerini kullanmayla ilişkili maliyeti önemli ölçüde azaltabileceğine dair iyi bir örnektir.

SSS

Bir sorguya daha fazla jeton eklediğimde model performansını kaybeder miyim?

Genel olarak, modele jeton iletilmesi gerekmiyorsa jetonları iletmekten kaçınmak en iyisidir. Ancak, bazı bilgiler içeren büyük bir jeton grubunuz varsa ve bu bilgilerle ilgili soru sormak istiyorsanız model bu bilgileri ayıklayabilir (birçok durumda% 99'a varan doğrulukla).

Gemini 1.5 Pro, standart samanlıkta iplik arama testinde nasıl performans gösterir?

Gemini 1.5 Pro, 530 bin jetona kadar% 100 ve 1 milyona kadar% 99,7 geri çağırma elde eder.

Uzun bağlamlı sorgularla maliyetimi nasıl düşürebilirim?

Çok kez yeniden kullanmak istediğiniz benzer bir jeton / bağlam grubu varsa bağlam önbelleğe alma, bu bilgilerle ilgili soru sorma maliyetlerini azaltmanıza yardımcı olabilir.

2 milyon jetonluk bağlam penceresine nasıl erişebilirim?

Tüm geliştiriciler artık Gemini 1.5 Pro ile 2 milyon parçalık bağlam penceresine erişebilir.

Bağlam uzunluğu, model gecikmesini etkiler mi?

Boyuttan bağımsız olarak her istekte belirli bir miktarda gecikme vardır ancak genellikle daha uzun sorguların gecikmesi daha yüksek olur (ilk jetona kadar geçen süre).

Gemini 1.5 Flash ile Gemini 1.5 Pro arasındaki uzun bağlam özellikleri farklı mı?

Evet, bu kılavuzun farklı bölümlerinde sayılardan bazılarına değinildi ancak genel olarak Gemini 1.5 Pro, uzun bağlamlı kullanım alanlarının çoğunda daha iyi performans gösterir.