PaliGemma
PaliGemma è un modello VLM aperto leggero, ispirato a PaLI-3 e basato su componenti aperti come il modello di visione artificiale SigLIP e il modello linguistico Gemma. PaliGemma prende sia immagini che testo come input e può rispondere a domande sulle immagini con dettagli e contesto, il che significa che PaliGemma può eseguire un'analisi più approfondita delle immagini e fornire insight utili, come le didascalie per immagini e brevi video, il rilevamento di oggetti e la lettura del testo incorporato nelle immagini.
Esistono due insiemi di modelli PaliGemma, uno per uso generico e uno orientato alla ricerca:
- PaliGemma: modelli preaddestrati per uso generico che possono essere perfezionati per una serie di attività.
- PaliGemma-FT: modelli orientati alla ricerca che sono perfezionati su set di dati di ricerca specifici.
I vantaggi principali includono:
-
Comprensione multimodale
Comprende contemporaneamente sia le immagini che il testo. -
Modello di base versatile
Può essere perfezionato per una vasta gamma di attività legate al linguaggio visivo. -
Esplorazione pronta all'uso
Include un checkpoint perfezionato su una combinazione di attività per una ricerca immediata.