Uzun bağlam

Gemini 1.5 Flash, 1 milyon jetonluk bağlam penceresiyle standart olarak sunulur. Gemini 1.5 Pro'da 2 milyon jetonluk bağlam penceresi bulunur. Geçmişte, dil modellerinin (LLM'ler) metin boyutu (veya jeton) bulunur. Gemini 1.5 uzun bağlam penceresi, neredeyse mükemmel şekilde (>%99), birçok yeni kullanım alanı ve geliştirici paradigması ortaya çıkarır.

Metin gibi durumlarda zaten kullandığınız kod oluşturma veya çok modlu girişlerin uzun bağlamda kullanıma sunulacağı anlamına gelir.

Bu kılavuz boyunca bağlam penceresinin temel özelliklerini, geliştiricilerin uzun bir bağlam, gerçek dünyadaki çeşitli kullanım alanları gibi uzun bağlam ve uzun bağlam kullanımını optimize etme yolları.

Bağlam penceresi nedir?

Gemini 1.5 modellerini kullanmanın temel yolu, bilgileri (bağlam) bu da daha sonra bir yanıt üretir. Mesela bağlam penceresi kısa süreli bellektir. Sınırlı miktarda bilgi kısa vadeli hafızasında saklanabildiği bir süreçtir. Aynı durum, üretken modeller.

Üretken modellerimizde modellerin arka planda nasıl çalıştığı hakkında daha fazla bilgi edinebilirsiniz. rehberini inceleyin.

Uzun bağlam kullanmaya başlama

Son birkaç yılda oluşturulan çoğu üretken modelde aynı anda 8.000 jeton işleniyor. Yeni modellerde kabul edilerek 32.000 jeton veya 128.000 jeton. Gemini 1.5, şunları yapabilen ilk modeldir: 1 milyon jeton ve şimdi de Gemini 1.5 ile 2 milyon jeton kabul ediliyor Profesyonel.

Pratikte 1 milyon jeton şöyle görünür:

  • 50.000 kod satırı (satır başına standart 80 karakterle)
  • Son 5 yılda gönderdiğiniz tüm kısa mesajlar
  • Ortalama uzunlukta 8 İngilizce roman
  • Ortalama uzunluktaki 200'den fazla podcast bölümünün transkriptleri

Modeller giderek daha fazla bağlamda yer alabilse de, modelin çoğu büyük dil modellerinin kullanılmasıyla ilgili geleneksel yaklaşıma göre modeldeki sınırlama, 2024 itibarıyla geçerliliğini yitirdi.

Küçük bağlam pencerelerinin sınırlamalarını ele almaya yönelik bazı yaygın stratejiler dahil:

  • Eski mesajları / metinleri bağlam penceresinden rastgele yeni metin olarak bırakma gelir
  • Önceki içeriği özetlemeli ve bağlam penceresi dolmak üzere
  • Verileri bağlam penceresinden dışarı taşımak ve RAG sistemini, veri tabanına
  • Belirli metinleri kaldırmak için deterministik veya üretken filtreler kullanma jeton kaydetme istemlerindeki karakterler

Bu kuralların birçoğu bazı durumlara rağmen hâlâ geçerli olsa da, başlangıç noktası tüm jetonları bağlam penceresine yerleştirmektir. Çünkü Gemini 1.5 modelleri, uzun bir bağlam penceresiyle amaca yönelik olarak geliştirildi. bağlam içi öğrenme Örneğin, yalnızca öğretici materyaller (500 sayfalık referans dil bilgisi, bir sözlük ve ≈ 400 ekstra paralel Gemini 1.5 Pro ve Gemini 1.5 Flash ise) şunlardır: çeviri yapmayı öğrenebilen İngilizceden Kalamang’a—Papua dili, 200’den az konuşan ve Bu nedenle, neredeyse hiç çevrimiçi varlık yok. Bu, eğitim alan bir kişininkine benzer bir aynı malzemelerden yapabilirsiniz.

Bu örnek, bir şirketle her biri için mümkün olan kapsamlı bağlam ve Gemini 1.5'in bağlam içi öğrenme yetenekleri.

Uzun bağlam kullanım alanları

Çoğu üretken modelin standart kullanım alanı hâlâ metin girişi olsa da Gemini 1.5 model ailesi, çok modlu kullanım alanlarında yeni bir paradigma sunuyor. Bu yerel olarak metin, video, ses ve resimleri anlayabilir. Bunlar: Çok modlu dosyayı alan Gemini API ve türler yardımcı olur.

Uzun metin

Günümüzde birçok yapay zekanın temelini oluşturan metin, ivmelenmeye başladım. Daha önce belirttiğimiz gibi, proje yönetiminin pratik sınırlamalarının LLM'ler, belirli görevleri gerçekleştirmek için yeterince büyük bir bağlam görevlerden biridir. Bu durum, almalı artırılmış nesilin (RAG) hızla benimsenmesine yol açtı. ve modele alakalı bilgileri dinamik olarak sağlayan diğer teknikler bağlamsal bilgiler sağlar. Şimdi ise daha geniş ve daha geniş bağlam aralıklarıyla (şu anda 2 milyona kadar ulaşırken, kullanıma sunmak üzere yeni teknikler Bu da yeni kullanım alanları ortaya çıkarır.

Metin tabanlı uzun bağlam için yeni ve standart kullanım alanlarından bazıları şunlardır:

  • Büyük metin topluluklarını özetleme
    • Daha küçük bağlam modellerine sahip önceki özetleme seçenekleri için gerekenler önceki bölümlerin durumunu korumak için kayan pencere veya başka bir teknik yeni jetonlar modele iletildikçe
  • Soru ve cevap
    • Geçmişte bu, sınırlı miktarda ve RAG ile birlikte yapılabiliyordu. bağlam ve modellerin olgusal hatırlanabilirliğin düşük olması
  • Aracı iş akışları
    • Temsilcilerin yaptığı işleri kontrol etme yönteminin temelidir ve ne yapmaları gerekiyor? dünya hakkında yeterli bilgiye sahip olmaması Aracının amacı temsilcilerin güvenilirliğini sınırlamak

Birçok çekimle bağlam içinde öğrenme, uzun bağlam modelleri sayesinde elde edilen en benzersiz özellikleri sunar. Araştırmaların gösterdikleri ortak bir "tek vuruş" yapma veya "çoklu çekim" inceleyebilirsiniz. görev bir veya birkaç örnekle sunulduğunda ve bunu en yüksek düzeye yüzlerce, hatta binlerce, hatta yüz binlerce örnek, insanların yeni model olanaklarından yararlanmayı öğreteceğim. Bu çok çekim yaklaşımının, yüksek performans Bu da belirli bir görev için ince ayar yapılmış modellere benzer. Kullanım alanları için Gemini modelinin performansının üretim için yeterli olmadığı durumlarda çok çekimli yaklaşımı deneyebilirsiniz. Gördüğünüz gibi bağlam optimizasyonu bölümü, bağlam önbelleğe alma işlemi için bu tür bir yüksek daha ekonomiktir ve hatta bazı durumlarda durumlarda işe yarar.

Uzun video

Video içeriğini kullanmak, erişilebilirliğin olmaması nedeniyle uzun süredir kısıtlanmıştır olduğunu söyleyebilir. İçeriğe göz atmak zordu, transkriptler genellikle yakalarsınız. Çoğu araçta görüntü, metin ve metin sesi birlikte kullanabilirsiniz. Gemini 1.5'te uzun bağlam metin özellikleri çok modlu girişlerle ilgili akıl yürütme ve soruları yanıtlama becerisi sürdürülebilir performans. Gemini 1.5 Flash, videoda iğneyle test edildiğinde 1 milyon jetonla ilgili samanlık sorunu, videonun% 99,8'in üzerinde bağlam penceresine kıyasla ve 1.5 Pro, Video-MME karşılaştırması.

Uzun videolar için yeni ve standart kullanım alanlarından bazıları şunlardır:

  • Video sorusu ve yanıtı
  • Google Project Astra'da gösterildiği gibi video belleği
  • Video altyazısı
  • Mevcut meta verileri yeni içeriklerle zenginleştirerek çok modlu anlama
  • Veri kitaplığına ve ilişkili videolara bakarak video özelleştirme meta verilerle alakalı olmayan kısımları kaldırarak görüntüleyen
  • Video içeriği moderasyonu
  • Gerçek zamanlı video işleme

Videolarla çalışırken, videoların nasıl jetonlara dönüştürülmesini sağlar. Bu, faturalandırma ve kullanım sınırları. Video dosyalarıyla istem gönderme hakkında daha fazla bilgi edinmek için şu bölümü inceleyebilirsiniz: istem rehberini inceleyin.

Uzun video ses

Gemini 1.5 modelleri, ilk yerel olarak çok modlu büyük dil modelleriydi. anlayabiliyoruz. Önceden beri, tipik geliştirici iş akışı alan adına özgü birden çok modelin bir araya getirilmesini içerir. sesle yazma modelini ve metin-metin modelini kullanır. Bu Birden fazla gidiş dönüş isteği gerçekleştirilmesi gereken ek gecikmeye neden oldu ve performanstaki düşüş, genellikle farklı dildeki mimarilerin model kurulumunu da destekler.

Gemini 1.5 Pro, standart ses içeren samanlık değerlendirmelerinde testlerin% 100'ünde gizli sestir ve Gemini 1.5 Flash, bu sesi % 98,7 testlerinde bulabilirsiniz. Gemini 1.5 Flash, tek seferde 9,5 saate kadar sesi kabul eder ve Gemini 1.5 Pro, 2 milyon jeton ile 19 saate kadar sesi kabul edebilir bağlam penceresine kaçırmayın. Ayrıca Gemini 1.5 Pro, 15 dakikalık ses kliplerinden oluşan bir test setinde ~%5,5'lik bir kelime hatası (WER) oranı (özel düzeylere göre çok daha düşük) arşivler. ekstra giriş segmentasyonunun ek karmaşıklığı olmadan sesle yazma modelleri hazırlamanız gerekir.

Ses bağlamı için yeni ve standart kullanım alanlarından bazıları şunlardır:

  • Gerçek zamanlı metne dönüştürme ve çeviri
  • Podcast / video hakkında soru ve yanıtlar
  • Toplantıyı metne dönüştürme ve özetleme
  • Sesli asistanlar

Ses dosyalarıyla istem alma hakkında daha fazla bilgiyi İstemler bölümünde rehberini inceleyin.

Uzun bağlam optimizasyonları

Uzun bağlamla çalışırken uygulanan birincil optimizasyon ve Gemini 1.5 model, bağlamın önbelleğe alma. Öncekinin ötesinde tek bir istekte çok sayıda jetonun işlenmesinin imkansız olması, maliyetiydi. "Verilerinizle sohbet" ediyorsanız kullanıcının 10 PDF, bir video ve bazı çalışma dokümanları yüklediğinde, eskiden sahip olduğunuz daha karmaşık bir alma artırılmış nesil (RAG) aracıyla çalışmak / çerçevesini kullanarak bu talepleri işleme almak ve bağlam penceresine taşınır. Artık kullanıcının kullandığı dosyaları önbelleğe alabilirsiniz ve saatlik olarak depolamak için ödeme yapıyor. Hesap başına giriş / çıkış maliyeti Gemini ile istek Örneğin, 1,5 Flash, standart giriş / çıkış maliyetinden yaklaşık 4 kat daha düşüktür. kullanıcılarla sohbet etmeye yeterince zaman ayıramıyorsanız, en az bir haftalık çaba gerekiyorsa

Uzun bağlam sınırlamaları

Bu kılavuzun çeşitli bölümlerinde Gemini 1.5 modellerinin samanlıktaki çeşitli iğne alma değerlendirmelerinde yüksek performans sergiliyor. Bu en temel kurulum modelidir. Burada ise elinizdeki tek bir iğne yardımcı oluyorum. Birden fazla "iğnenizin" olduğu durumlarda veya belirli parçaları model, aradığınız herhangi bir bilgiyle aynı performans emin olun. Performans, bağlama bağlı olarak büyük ölçüde değişiklik gösterebilir. Bu satın alma kararını verme arasında doğal bir uzlaşma olduğundan ve maliyeti ortaya çıkarır. Tek bir sorguda yaklaşık% 99 oranında bir artış elde edebilirsiniz, ancak bu sorguyu her gönderdiğinizde giriş jetonu ücretini ödemeniz gerekir. Yani 100 için almak istiyorsanız, %99 performansa ihtiyacınız varsa bunu muhtemelen 100 istek göndermesi gerekir. Bu, bağlamın nerede kullanıldığının önbelleğe alma, Gemini modellerinin kullanımıyla ilişkili maliyeti önemli ölçüde azaltabilir hem de performansı yüksek tutuyoruz.

SSS

Bir sorguya daha fazla jeton eklediğimde model performansını kaybeder miyim?

Genellikle, jetonların modele aktarılması gerekmiyorsa geçmekten kaçınmalısınız. Bununla birlikte, ve bu bilgi hakkında sorular sormak istiyorsanız model çok yetenekli (birçok araçta% 99'a varan doğruluk) durumlarda).

Gemini 1.5 Pro, standart samanlıkta iğne testinde nasıl performans gösteriyor?

Gemini 1.5 Pro, 530 bine kadar jetonu% 100 geri çağırma ve% 99,7'den fazla geri çağırma özelliğini kullanıyor. 1 Mn jetonlar.

Uzun bağlam içeren sorgularla maliyetimi nasıl azaltabilirim?

Birçok farklı token'ı / bağlamını yeniden kullanmak Bağlam önbelleğe alma maliyetleri azaltmaya yardımcı olabilir soru sormakla bağlantılı.

2 milyon jeton bağlam penceresine nasıl erişebilirim?

Tüm geliştiriciler artık Gemini ile 2 milyon jetonlu bağlam penceresine erişebilirler 1.5 Pro.

Bağlam uzunluğu model gecikmesini etkiler mi?

Kısıtlamadan bağımsız olarak her istekte belirli bir gecikme süresi vardır. ancak genellikle daha uzun sorgularda daha yüksek gecikme (ilke kadar geçen süre) jeton).

Gemini 1.5 Flash ve Gemini 1.5 Pro'nun uzun bağlam özellikleri arasında farklılık var mı?

Evet, bazı rakamlar bu kılavuzun farklı bölümlerinde bahsedilmişti, ancak Gemini 1.5 Pro, çoğu uzun bağlam kullanım alanında genellikle daha iyi performans gösterir.