Contesto lungo

Molti modelli Gemini sono dotati di ampie finestre contestuali di 1 milione o più token. Storicamente, i modelli linguistici di grandi dimensioni (LLM) erano notevolmente limitati dalla quantità di testo (o token) che poteva essere passata al modello contemporaneamente. La finestra contestuale lunga di Gemini apre molti nuovi casi d'uso e paradigmi per gli sviluppatori.

Il codice che utilizzi già per casi come la generazione di testo o gli input multimodali funzionerà senza modifiche con il contesto esteso.

Questo documento fornisce una panoramica di ciò che puoi ottenere utilizzando modelli con finestre contestuali di 1 milione di token e oltre. La pagina fornisce una breve panoramica di una finestra contestuale ed esplora il modo in cui gli sviluppatori devono pensare al contesto lungo, vari casi d'uso reali per il contesto lungo e i modi per ottimizzare l'utilizzo del contesto lungo.

Per le dimensioni della finestra contestuale di modelli specifici, consulta la pagina Modelli.

Cos'è una finestra contestuale?

Il modo di base in cui utilizzi i modelli Gemini è quello di passare informazioni (contesto) al modello, che successivamente genererà una risposta. Un'analogia per la finestra contestuale è la memoria a breve termine. La quantità di informazioni che possono essere memorizzate nella memoria a breve termine di una persona è limitata, e lo stesso vale per i modelli generativi.

Per saperne di più sul funzionamento dei modelli, consulta la nostra guida ai modelli generativi.

Iniziare a utilizzare il contesto lungo

Le versioni precedenti dei modelli generativi erano in grado di elaborare solo 8000 token alla volta. I modelli più recenti hanno ulteriormente ampliato questo limite accettando 32.000 o addirittura 128.000 token. Gemini è il primo modello in grado di accettare 1 milione di token.

In pratica, 1 milione di token sarebbe simile a:

50.000 righe di codice (con gli 80 caratteri standard per riga)
Tutti i messaggi inviati negli ultimi 5 anni
8 romanzi in inglese di lunghezza media
Trascrizioni di oltre 200 puntate di podcast di durata media

Le finestre contestuali più limitate comuni in molti altri modelli spesso richiedono strategie come l'eliminazione arbitraria di messaggi precedenti, il riepilogo dei contenuti, l'utilizzo di RAG con database vettoriali o il filtraggio dei prompt per risparmiare token.

Sebbene queste tecniche rimangano preziose in scenari specifici, l'ampia finestra contestuale di Gemini invita a un approccio più diretto: fornire tutte le informazioni pertinenti in anticipo. Poiché i modelli Gemini sono stati creati appositamente con enormi funzionalità contestuali, dimostrano un potente apprendimento in contesto. Ad esempio, utilizzando solo materiali didattici in contesto (una grammatica di riferimento di 500 pagine, un dizionario e circa 400 frasi parallele), Gemini ha imparato a tradurre dall'inglese al kalamang, una lingua papuana con meno di 200 parlanti, con una qualità simile a quella di un utente umano che utilizza gli stessi materiali. Ciò illustra il cambio di paradigma reso possibile dal contesto lungo di Gemini, che offre nuove possibilità grazie a un robusto apprendimento in contesto.

Casi d'uso con contesti lunghi

Sebbene il caso d'uso standard per la maggior parte dei modelli generativi sia ancora l'input di testo, la famiglia di modelli Gemini consente un nuovo paradigma di casi d'uso multimodali. Questi modelli possono comprendere in modo nativo testo, video, audio e immagini. Sono accompagnati dall'API Gemini che accetta tipi di file multimodali per comodità.

Testo in formato lungo

Il testo si è dimostrato il livello di intelligenza alla base di gran parte dell'entusiasmo per gli LLM. Come accennato in precedenza, gran parte delle limitazioni pratiche degli LLM era dovuta al fatto di non avere una finestra contestuale sufficientemente grande per svolgere determinate attività. Ciò ha portato alla rapida adozione della generazione RAG (Retrieval Augmented Generation) e di altre tecniche che forniscono dinamicamente al modello informazioni contestuali pertinenti. Ora, con finestre contestuali sempre più grandi, sono disponibili nuove tecniche che sbloccano nuovi casi d'uso.

Alcuni casi d'uso emergenti e standard per il contesto lungo basato su testo includono:

Riassumere grandi corpus di testo
- Le precedenti opzioni di riepilogo con modelli contestuali più piccoli richiedevano una finestra scorrevole o un'altra tecnica per mantenere lo stato delle sezioni precedenti man mano che nuovi token vengono passati al modello
Domande e risposte
- Storicamente, questo era possibile solo con RAG, data la quantità limitata di contesto e il basso richiamo dei fatti dei modelli
Workflow agentici
- Il testo è alla base del modo in cui gli agenti tengono traccia di ciò che hanno fatto e di ciò che devono fare. La mancanza di informazioni sul mondo e sull'obiettivo dell'agente è una limitazione all'affidabilità degli agenti.

L'apprendimento in-context many-shot è una delle funzionalità più esclusive sbloccate dai modelli con contesto lungo. La ricerca ha dimostrato che prendere il paradigma comune degli esempi "single shot" o "multi-shot", in cui al modello vengono presentati uno o pochi esempi di un'attività, e aumentarlo fino a centinaia, migliaia o persino centinaia di migliaia di esempi, può portare a nuove funzionalità del modello. È stato inoltre dimostrato che questo approccio con molti esempi ha prestazioni simili a quelle dei modelli ottimizzati per un'attività specifica. Per i casi d'uso in cui le prestazioni di un modello Gemini non sono ancora sufficienti per l'implementazione in produzione, puoi provare l'approccio many-shot. Come vedrai più avanti nella sezione sull'ottimizzazione del contesto lungo, la memorizzazione nella cache del contesto rende questo tipo di workload con un numero elevato di token di input molto più fattibile dal punto di vista economico e con una latenza ancora più bassa in alcuni casi.

Video nel formato lungo

L'utilità dei contenuti video è stata a lungo limitata dalla mancanza di accessibilità del mezzo stesso. Era difficile scorrere rapidamente i contenuti, le trascrizioni spesso non riuscivano a cogliere le sfumature di un video e la maggior parte degli strumenti non elabora immagini, testo e audio insieme. Con Gemini, le funzionalità di testo con contesto lungo si traducono nella capacità di ragionare e rispondere a domande su input multimodali con prestazioni costanti.

Alcuni casi d'uso emergenti e standard per il contesto lungo dei video includono:

Domande e risposte sui video
Memoria video, come mostrato con il progetto Astra di Google
Sottotitolaggio codificato dei video
Sistemi di suggerimenti video, arricchendo i metadati esistenti con una nuova comprensione multimodale
Personalizzazione dei video, analizzando un corpus di dati e i metadati dei video associati e rimuovendo le parti dei video non pertinenti per lo spettatore.
Moderazione dei contenuti video
Elaborazione video in tempo reale

Quando lavori con i video, è importante considerare come i video vengono elaborati in token, il che influisce sulla fatturazione e sui limiti di utilizzo. Per scoprire di più sui prompt con i file video, consulta la guida ai prompt.

Audio nel formato lungo

I modelli Gemini sono stati i primi modelli linguistici di grandi dimensioni multimodali nativi in grado di comprendere l'audio. Storicamente, il flusso di lavoro tipico degli sviluppatori prevedeva l'utilizzo di più modelli specifici del dominio, come un modello di sintesi vocale e un modello di conversione della voce in testo, per elaborare l'audio. Ciò ha comportato una latenza aggiuntiva richiesta dall'esecuzione di più richieste di andata e ritorno e una riduzione delle prestazioni solitamente attribuita ad architetture disconnesse della configurazione di più modelli.

Alcuni casi d'uso emergenti e standard per il contesto audio includono:

Trascrizione e traduzione in tempo reale
Domande e risposte su podcast / video
Trascrizione e riepilogo della riunione
Assistenti vocali

Per scoprire di più sui prompt con file audio, consulta la guida ai prompt.

Ottimizzazioni del contesto lungo

L'ottimizzazione principale quando si lavora con il contesto lungo e i modelli Gemini consiste nell'utilizzare la memorizzazione nella cache del contesto. Oltre alla precedente impossibilità di elaborare molti token in un'unica richiesta, l'altro vincolo principale era il costo. Se hai un'app "chatta con i tuoi dati" in cui un utente carica 10 PDF, un video e alcuni documenti di lavoro, in passato avresti dovuto utilizzare uno strumento/framework di generazione aumentata dal recupero (RAG) più complesso per elaborare queste richieste e pagare un importo significativo per i token spostati nella finestra contestuale. Ora puoi memorizzare nella cache i file caricati dall'utente e pagare per archiviarli su base oraria. Il costo di input / output per richiesta con Gemini Flash, ad esempio, è circa quattro volte inferiore al costo di input / output standard, quindi se l'utente chatta abbastanza con i suoi dati, si ottiene un enorme risparmio sui costi per te in qualità di sviluppatore.

Limitazioni del contesto lungo

In varie sezioni di questa guida abbiamo parlato di come i modelli Gemini ottengono prestazioni elevate in varie valutazioni di recupero di un ago in un pagliaio. Questi test prendono in considerazione la configurazione più semplice, in cui hai un singolo ago che stai cercando. Nei casi in cui potresti avere più "aghi" o informazioni specifiche che stai cercando, il modello non funziona con la stessa precisione. Il rendimento può variare notevolmente a seconda del contesto. Questo è importante da considerare in quanto esiste un compromesso intrinseco tra il recupero delle informazioni giuste e il costo. Puoi ottenere circa il 99% con una singola query, ma devi pagare il costo dei token di input ogni volta che invii la query. Pertanto, per recuperare 100 informazioni, se hai bisogno di un rendimento del 99%, probabilmente dovrai inviare 100 richieste. Questo è un buon esempio di dove la memorizzazione nella cache del contesto può ridurre significativamente i costi associati all'utilizzo dei modelli Gemini, mantenendo al contempo prestazioni elevate.

Domande frequenti

Qual è il posto migliore per inserire la query nella finestra contestuale?

Nella maggior parte dei casi, soprattutto se il contesto totale è lungo, le prestazioni del modello saranno migliori se inserisci la query / domanda alla fine del prompt (dopo tutto il resto del contesto).

Le prestazioni del modello peggiorano quando aggiungo più token a una query?

In genere, se non è necessario trasmettere token al modello, è meglio evitare di farlo. Tuttavia, se hai un blocco di token con alcune informazioni e vuoi porre domande su queste informazioni, il modello è altamente in grado di estrarle (fino al 99% di precisione in molti casi).

Come posso ridurre i costi con le query di contesto lungo?

Se hai un insieme simile di token / contesto che vuoi riutilizzare molte volte, la memorizzazione nella cache del contesto può aiutarti a ridurre i costi associati alla richiesta di informazioni.

La lunghezza del contesto influisce sulla latenza del modello?

In qualsiasi richiesta è presente una quantità fissa di latenza, indipendentemente dalle dimensioni, ma in genere le query più lunghe hanno una latenza maggiore (tempo al primo token).