Comprensione della vision

Gemma 4, l'ultimo modello della famiglia Gemma, può eseguire un'ampia gamma di attività di visione e linguaggio, come il rilevamento di oggetti, il riconoscimento ottico dei caratteri (OCR), la risposta a domande visive, la didascalia delle immagini e il ragionamento su più immagini. Supporta anche l'elaborazione a risoluzione variabile, consentendoti di bilanciare la velocità di inferenza e l'accuratezza dell'output.

Questa sezione illustra come preparare e utilizzare in modo efficace i dati visivi nei prompt.

Dati visivi

I dati visivi possono essere disponibili in molti formati e risoluzioni. I formati file specifici supportati (ad esempio JPEG e PNG) dipendono dal framework che scegli per convertire i tuoi dati visivi in tensori.

Di seguito sono riportati gli aspetti chiave da considerare durante la preparazione dei dati visivi per Gemma:

  • Costo dei token:ogni immagine utilizza in genere 256 token, anche se i costi dei token dell'immagine PaliGemma variano a seconda del modello specifico selezionato.
  • Risoluzione:la risoluzione interpretata, ovvero il numero di pixel codificati in token ed elaborati dal modello, dipende dalla versione di Gemma che utilizzi:
    • Gemma 4:risoluzione variabile in base al budget dei token. Puoi scegliere tra dimensioni del budget di 70, 140, 280, 560 o 1120 token, che determinano il ridimensionamento e l'elaborazione dell'immagine di input.
    • Gemma 3: (4B e versioni successive) risoluzione 896 x 896, con opzioni di panoramica e scansione per immagini più grandi.
    • Gemma 3n: risoluzione 256 x 256, 512 x 512 o 768 x 768
    • PaliGemma 2: risoluzione 224 x 224, 448 x 448 o 896 x 896

Le immagini a risoluzione inferiore vengono elaborate più velocemente, ma acquisiscono meno dettagli visivi. Per ottimizzare la velocità di inferenza, devi fornire dati visivi che corrispondano a una delle risoluzioni interpretate integrate del modello Gemma scelto.

Risoluzione variabile e budget dei token

I modelli Gemma 4 introducono la possibilità di elaborare immagini a risoluzioni diverse, consentendoti di adattare l'input visivo alla tua attività specifica. Ad esempio, potresti optare per un'alta risoluzione per individuare piccoli dettagli nel rilevamento degli oggetti, mentre una risoluzione inferiore potrebbe essere preferibile per analizzare i singoli fotogrammi del video per velocizzare l'elaborazione. In definitiva, questa funzionalità ti consente di bilanciare la velocità di inferenza con l'accuratezza della rappresentazione visiva.

Gestisci questo compromesso utilizzando un budget di token. Questo budget imposta un limite rigido al numero di token visivi (noti anche come incorporamenti di token visivi) che il modello può generare per una singola immagine.

Puoi scegliere un budget di 70, 140, 280, 560 o 1120 token:

  • Budget elevati (ad es. 1120 token): mantieni una risoluzione dell'immagine più elevata. In questo modo vengono generati più patch da elaborare per il modello, il che lo rende ideale per acquisire dettagli fini e complessi.
  • Budget bassi (ad es. 70 token): ridimensiona l'immagine, ottenendo meno patch. Ciò accelera notevolmente i tempi di inferenza.

Come funziona il budget Il budget dei token controlla direttamente il ridimensionamento di un'immagine determinando il numero massimo di patch iniziali dell'immagine. Il sistema genera un numero di patch nove volte superiore al budget selezionato. Ad esempio, un budget di 280 token produce fino a 2520 patch (280 × 9).

Il moltiplicatore 9 esiste a causa della modalità di compressione delle patch: durante l'elaborazione, il modello prende ogni griglia 3x3 di patch adiacenti e le fa la media insieme per creare un unico embedding. Questi incorporamenti consolidati diventano i tuoi token visivi finali. Di conseguenza, un budget di token più elevato produce più incorporamenti finali, consentendo al modello di estrarre informazioni più ricche e granulari dai dati visivi.

Attività consigliate

Ecco alcune best practice da seguire quando fornisci a Gemma prompt con dati visivi.

  • Fornisci informazioni specifiche: se hai attività specifiche, fornisci un contesto e indicazioni sufficienti. Invece di "descrivi questa immagine", prova con "descrivi la scena in questa immagine, concentrandoti sul rapporto tra le persone e gli oggetti".

  • Fornisci vincoli: per ottenere uno stile o un tono particolare, assicurati di specificarlo nel prompt. Ad esempio, invece di una richiesta generica di una storia, chiedi a Gemma di "Scrivere un racconto su questa immagine nello stile di un film noir".

  • Perfezionamento iterativo: per ottenere l'output previsto spesso è necessario sperimentare e perfezionare i prompt. Inizia con un prompt di base e aumenta gradualmente la complessità.

Azioni da evitare

Ecco alcune cose da evitare quando fornisci a Gemma prompt con dati visivi.

  • Aspettati conteggi esatti per oggetti estremamente densi: anche se Gemma 4 eccelle nel rilevamento degli oggetti e nell'OCR, potrebbe comunque fornire approssimazioni anziché conteggi esatti per oggetti estremamente densi o minuscoli (ad esempio, il conteggio dei singoli fili d'erba). Per ottenere la massima precisione per le attività visive, utilizza un budget di token più elevato.

  • Prompt vaghi o ambigui: invece di prompt generici come "Genera qualcosa in base a questa immagine", fornisci istruzioni specifiche per ottenere gli output previsti. Definisci chiaramente cosa intendi con "qualcosa". Ad esempio, una poesia, una ricetta o uno snippet di codice.