PaliGemma

PaliGemma è un modello di linguaggio visivo aperto e leggero, ispirato a PaLI-3 e si basa su componenti aperti come SigLIP il modello di visione artificiale e il linguaggio Gemma modello. PaliGemma prende sia immagini che testo come input e può rispondere a domande immagini dettagliate e contestualizzate, vale a dire che PaliGemma è in grado di analizzare immagini e fornire informazioni utili, come la creazione di didascalie per immagini e video brevi, il rilevamento di oggetti e la lettura del testo incorporato nelle immagini.

Esistono due insiemi di modelli PaliGemma: uno per uso generico e uno orientato alla ricerca:

  • PaliGemma: Modelli preaddestrati per uso generico che possono essere ottimizzati su una varietà di attività.
  • PaliGemma-FT: Modelli orientati alla ricerca perfezionati su set di dati di ricerca specifici.

I vantaggi principali includono:

  • Comprende contemporaneamente sia le immagini che il testo.
  • Può essere perfezionato per una vasta gamma di attività legate al linguaggio visivo.
  • Include un checkpoint perfezionato su una combinazione di attività per una ricerca immediata.

Scopri di più

La scheda del modello di PaliGemma contiene informazioni dettagliate sul modello, sull'implementazione, sulla valutazione, sull'utilizzo e sulle limitazioni del modello e altro ancora.
Visualizza altro codice, blocchi note di Colab, informazioni e discussioni su PaliGemma su Kaggle.
Esegui un esempio funzionante per perfezionare PaliGemma con JAX in Colab.