Contesto lungo

Gemini 1.5 Flash include di serie una finestra contestuale da 1 milione di token e Gemini 1.5 Pro include una finestra contestuale da 2 milioni di token. Storicamente, le grandi dimensioni i modelli linguistici (LLM) erano significativamente limitati dalla quantità di testo (o ) che possono essere passati al modello contemporaneamente. Gemini 1.5 finestra contestuale, con recupero quasi perfetto (>99%), sblocca molti nuovi casi d'uso e paradigmi di sviluppo.

Il codice che utilizzi già per casi come testo per la generazione o multimodale di input sono pronti all'uso con un contesto lungo.

Nel corso di questa guida, esplorerai brevemente le nozioni di base della finestra di contesto, come gli sviluppatori dovrebbero pensare a un contesto lungo, a vari casi d'uso reali per contesto lungo e come ottimizzarne l'uso.

Che cos'è una finestra contestuale?

Il modo di base per usare i modelli Gemini 1.5 è trasmettere informazioni (contesto) al modello, che in seguito genererà una risposta. Un'analogia per il finestra contestuale è memoria a breve termine. La quantità di informazioni è limitata che possono essere archiviati nella memoria a breve termine di qualcuno, e lo stesso vale per e modelli generativi.

Puoi scoprire di più su come funzionano i modelli "in background" nei nostri modelli generativi. .

Introduzione di un contesto lungo

La maggior parte dei modelli generativi creati negli ultimi anni era in grado di di elaborare 8000 token alla volta. I modelli più recenti hanno spinto oltre accettando 32.000 token o 128.000 token. Gemini 1.5 è il primo modello in grado che accetta 1 milione di token e ora 2 milioni di token con Gemini 1.5 Pro.

In pratica, 1 milione di token avrebbe il seguente aspetto:

  • 50.000 righe di codice (con lo standard 80 caratteri per riga)
  • Tutti i messaggi che hai inviato negli ultimi 5 anni
  • 8 romanzi in inglese di media durata
  • Trascrizioni di oltre 200 puntate del podcast di durata media

Anche se i modelli possono includere sempre più contesto, gran parte delle le conoscenze convenzionali sull'uso di modelli linguistici di grandi dimensioni (LLM) presuppongono che questa del modello, che dal 2024 non lo è più.

Alcune strategie comuni per gestire i limiti di finestre di contesto di piccole dimensioni inclusi:

  • Eliminazione arbitraria di vecchi messaggi / testo dalla finestra contestuale come nuovo testo entra in gioco
  • Riassumere i contenuti precedenti e sostituirli con un riepilogo quando finestra contestuale si avvicina alla piena
  • Utilizzo di RAG con la ricerca semantica per spostare i dati fuori dalla finestra di contesto e in un database vettoriale
  • Utilizzo di filtri deterministici o generativi per rimuovere un determinato testo / di caratteri dei prompt per salvare i token

Anche se in alcuni casi molti di questi argomenti sono ancora rilevanti, è la posizione predefinita sta mettendo tutti i token nella finestra di contesto. Poiché I modelli Gemini 1.5 sono stati costruiti appositamente con una lunga finestra contestuale, più in grado di apprendere contestualizzate. Ad esempio, con solo istruzioni materiali (una grammatica di riferimento di 500 pagine, un dizionario e ≈ 400 paralleli extra pertinenti) tutte fornite nel contesto, Gemini 1.5 Pro e Gemini 1.5 Flash sono in grado di imparare a tradurre dall'inglese al kalamang, una lingua papuana con meno di 200 parlanti e quindi praticamente nessuna presenza online, con una qualità simile a quella di una persona che ha imparato utilizzando gli stessi materiali.

Questo esempio sottolinea come iniziare a pensare a cosa è possibile fare contesto lungo e le capacità di apprendimento contestualizzate di Gemini 1.5.

Casi d'uso in contesti lunghi

Sebbene il caso d'uso standard per la maggior parte dei modelli generativi sia ancora l'input di testo, La famiglia di modelli Gemini 1.5 consente un nuovo paradigma di casi d'uso multimodali. Questi possono comprendere in modo nativo testo, video, audio e immagini. Sono accompagnate dall'API Gemini che prende un file multimodale tipi di la praticità.

Testo lungo

Il testo si è dimostrato il livello di intelligenza alla base di gran parte delle slancio per gli LLM. Come accennato in precedenza, gran parte dei limiti pratici a causa della mancanza di una finestra di contesto abbastanza grande per attività di machine learning. Ciò ha portato alla rapida adozione della Retrieval Augmented Generation (RAG) e altre tecniche che forniscono dinamicamente al modello informazioni contestuali. Ora, con finestre contestuali più grandi e più grandi (attualmente fino a 2 milioni su Gemini 1.5 Pro), sono in arrivo nuove tecniche che sbloccano nuovi casi d'uso.

Alcuni casi d'uso emergenti e standard per i contesti lunghi basati su testo includono:

  • Riassumere grandi corpus di testo
    • Le precedenti opzioni di riassunto con modelli di contesto più piccoli richiedevano una finestra scorrevole o un'altra tecnica per mantenere lo stato delle sezioni precedenti man mano che i nuovi token vengono passati al modello
  • Domande e risposte
    • Storicamente questo era possibile solo con RAG, data la limitata quantità di il contesto e i modelli un ricordo oggettivo basso
  • Flussi di lavoro agenti
    • Il testo è alla base del modo in cui gli agenti mantengono lo stato di ciò che hanno fatto e cosa devono fare. non avere informazioni sufficienti sul mondo e l'obiettivo dell'agente è una limitazione dell'affidabilità degli agenti

L'apprendimento contestuale di Many-shot è una delle le funzionalità uniche sbloccate dai modelli di contesto lungo. La ricerca ha dimostrato il comune "colpo singolo" o "scatto multiplo" di esempio, in cui viene presentato uno o alcuni esempi di un'attività, per poi scalarla centinaia, migliaia o anche centinaia di migliaia di esempi, possono nuove capacità del modello. È stato dimostrato anche che questo approccio in modo simile ai modelli ottimizzati per un'attività specifica. Per casi d'uso In cui le prestazioni di un modello Gemini non sono ancora sufficienti per una produzione un'implementazione, puoi provare l'approccio many-shot. Come potrai esplorare più avanti lunga sezione sull'ottimizzazione del contesto, la memorizzazione nella cache del contesto rende questo tipo di del carico di lavoro dei token in modo molto più economico e con latenza ancora inferiore d'uso diversi.

Video nel formato lungo

L'utilità dei contenuti video è stata a lungo limitata dalla mancanza di accessibilità dal mezzo stesso. Era difficile scorrere i contenuti, spesso le trascrizioni non riuscivano per catturare tutte le sfumature di un video e la maggior parte degli strumenti non elabora immagini, testo audio insieme. Con Gemini 1.5, le funzionalità di testo nel contesto lungo la capacità di ragionare e rispondere a domande sugli input multimodali con un rendimento duraturo. Gemini 1.5 Flash, quando testato sull'ago in un video problema haystack con 1 milione di token, ottenuto un richiamo superiore al 99,8% del video nel finestra contestuale e 1.5 Pro ha raggiunto prestazioni all'avanguardia sulla Benchmark video-MME.

Di seguito sono riportati alcuni casi d'uso emergenti e standard per il contesto lungo dei video:

  • Domande e risposte sul video
  • Memoria video, come mostrata nel progetto Astra di Google
  • Sottotitoli dei video
  • Sistemi di consigli per i video, integrando i metadati esistenti con nuovi comprensione multimodale
  • Personalizzazione dei video, esaminando un corpus di dati e video associati metadati e quindi rimuovendo parti dei video non pertinenti visualizzatore
  • Moderazione dei contenuti video
  • Elaborazione video in tempo reale

Quando si utilizzano i video, è importante considerare come vengono elaborati in token, il che influisce di fatturazione e limiti di utilizzo. Puoi scoprire di più sulla creazione di prompt con file video in la richiesta di aiuto .

Audio nel formato lungo

I modelli Gemini 1.5 sono stati i primi modelli linguistici di grandi dimensioni multimodali a livello nativo in grado di comprendere l'audio. In passato, il tipico flusso di lavoro degli sviluppatori comporta l'unione di più modelli specifici di dominio, come un modello di conversione della voce in testo e un modello di conversione da testo a testo per elaborare l'audio. Questo ha generato la latenza aggiuntiva richiesta eseguendo più richieste di andata e ritorno e la diminuzione delle prestazioni, di solito attribuita ad architetture disconnesse la configurazione di più modelli.

Nelle valutazioni standard degli stack audio, Gemini 1.5 Pro è in grado di trovare audio nascosto nel 100% dei test e Gemini 1.5 Flash è in grado di trovarlo in 98,7% del test. Gemini 1.5 Flash accetta fino a 9,5 ore di audio in un singolo richiesta e Gemini 1.5 Pro può accettare fino a 19 ore di audio utilizzando il token da 2 milioni finestra contestuale. Inoltre, su un set di test di clip audio di 15 minuti, Gemini 1.5 Pro archivia un tasso di errore di parole (WER) di circa il 5,5%, molto inferiore persino a quello specializzato di conversione della voce in testo, senza la complessità aggiuntiva di un'ulteriore segmentazione dell'input e pre-elaborazione.

Alcuni casi d'uso emergenti e standard per il contesto audio includono:

  • Trascrizione e traduzione in tempo reale
  • Domande e risposte relative a podcast / video
  • Trascrizione e riassunto delle riunioni
  • Assistenti vocali

Puoi scoprire di più sulla creazione di prompt con file audio nella sezione Richieste di .

Ottimizzazioni del contesto lungo

L'ottimizzazione principale quando si lavora con contesto lungo e Gemini 1.5 è l'uso di contesto per la memorizzazione nella cache. Oltre la precedente di elaborare molti token in una singola richiesta, l'altra era il costo. Se hai una "chat con i tuoi dati" app in cui un utente carica 10 PDF, un video e alcuni documenti di lavoro, storicamente avresti dovuto lavorare con uno strumento RAG (Retrieval Augmented Generation) più complesso. di fatturazione al fine di elaborare queste richieste e pagare un importo significativo spostati nella finestra di contesto. Ora puoi memorizzare nella cache i file dell'utente dei caricamenti e paga per archiviarli su base oraria. Il costo di input / output per richiesta con Gemini 1.5 Flash, ad esempio, è circa 4 volte inferiore al costo standard di input / output. l'utente chatta con i propri dati a sufficienza, diventa per te un enorme risparmio sui costi, lo sviluppatore.

Limiti di contesto lunghi

In varie sezioni di questa guida, abbiamo parlato di come i modelli Gemini 1.5 ottengono prestazioni elevate in varie valutazioni di recupero "need-in-a-haystack". Questi considera la configurazione più basilare, in cui c'è un solo ago che stai cercando. Nei casi in cui tu abbia più "aghi" o pezzi specifici le informazioni che stai cercando, il modello non ha le stesse la precisione. Il rendimento può variare notevolmente a seconda del contesto. Questo è importante considerare perché esiste un compromesso intrinseco tra recuperate le informazioni giuste e costano di più. Puoi ottenere circa il 99% per una singola query, devi pagare il costo del token di input ogni volta che invii quella query. Quindi, per 100 informazioni da recuperare, se avessi bisogno di un rendimento del 99%, avresti probabilmente dovranno inviare 100 richieste. Questo è un buon esempio di come il contesto la memorizzazione nella cache può ridurre notevolmente i costi associati all'utilizzo dei modelli Gemini mantenendo alte le prestazioni.

Domande frequenti

Perderò le prestazioni del modello quando aggiungo altri token a una query?

In genere, se non hai bisogno di passare token al modello, evita di superarli. Tuttavia, se hai un blocco di token con un certo numero informazioni e vuoi porre domande al riguardo, il modello altamente in grado di estrarre tali informazioni (fino al 99% di accuratezza in casi).

Come si comporta Gemini 1.5 Pro nel test standard "needle-in-a-haystack"?

Gemini 1.5 Pro raggiunge il 100% del richiamo fino a 530.000 token e un richiamo superiore al 99,7% fino a 1 Mln di token.

Come faccio a ridurre il costo delle query con contesto lungo?

Se hai un insieme simile di token / contesti e vuoi riutilizzare molti volte, la memorizzazione nella cache di contesto può aiutare a ridurre i costi associati a porre domande su tali informazioni.

Come faccio ad accedere alla finestra contestuale con 2 milioni di token?

Ora tutti gli sviluppatori hanno accesso alla finestra contestuale di 2 milioni di token con Gemini 1.5 Pro.

La lunghezza del contesto influisce sulla latenza del modello?

Esiste una latenza fissa per ogni richiesta, indipendentemente ma in genere le query più lunghe hanno una latenza maggiore (la prima ).

Le funzionalità di contesto lungo sono diverse tra Gemini 1.5 Flash e Gemini 1.5 Pro?

Sì, alcuni dei numeri sono stati menzionati in diverse sezioni di questa guida, in genere Gemini 1.5 Pro offre prestazioni più elevate nella maggior parte dei casi d'uso in contesti lunghi.