PaliGemma

PaliGemma è un modello VLM aperto leggero, ispirato a PaLI-3 e basato su componenti aperti come il modello di visione artificiale SigLIP e il modello linguistico Gemma. PaliGemma prende sia immagini che testo come input e può rispondere a domande sulle immagini con dettagli e contesto, il che significa che PaliGemma può eseguire un'analisi più approfondita delle immagini e fornire insight utili, come le didascalie per immagini e brevi video, il rilevamento di oggetti e la lettura del testo incorporato nelle immagini.

Esistono due insiemi di modelli PaliGemma, uno per uso generico e uno orientato alla ricerca:

  • PaliGemma: modelli preaddestrati per uso generico che possono essere perfezionati per una serie di attività.
  • PaliGemma-FT: modelli orientati alla ricerca che sono perfezionati su set di dati di ricerca specifici.

I vantaggi principali includono:

  • Comprende contemporaneamente sia le immagini che il testo.
  • Può essere perfezionato per una vasta gamma di attività legate al linguaggio visivo.
  • Include un checkpoint perfezionato su una combinazione di attività per una ricerca immediata.

Scopri di più

La scheda del modello di PaliGemma contiene informazioni dettagliate sul modello, sull'implementazione, sulla valutazione, sull'utilizzo e sulle limitazioni del modello e altro ancora.
Visualizza altro codice, blocchi note di Colab, informazioni e discussioni su PaliGemma su Kaggle.
Esegui un esempio funzionante per perfezionare PaliGemma con JAX in Colab.