PaliGemma
PaliGemma è un modello di linguaggio visivo aperto e leggero, ispirato a PaLI-3 e si basa su componenti aperti come SigLIP il modello di visione artificiale e il linguaggio Gemma modello. PaliGemma prende sia immagini che testo come input e può rispondere a domande immagini dettagliate e contestualizzate, vale a dire che PaliGemma è in grado di analizzare immagini e fornire informazioni utili, come la creazione di didascalie per immagini e video brevi, il rilevamento di oggetti e la lettura del testo incorporato nelle immagini.
Esistono due insiemi di modelli PaliGemma: uno per uso generico e uno orientato alla ricerca:
- PaliGemma: Modelli preaddestrati per uso generico che possono essere ottimizzati su una varietà di attività.
- PaliGemma-FT: Modelli orientati alla ricerca perfezionati su set di dati di ricerca specifici.
I vantaggi principali includono:
-
Comprensione multimodale
Comprende contemporaneamente sia le immagini che il testo. -
Modello di base versatile
Può essere perfezionato per una vasta gamma di attività legate al linguaggio visivo. -
Esplorazione pronta all'uso
Include un checkpoint perfezionato su una combinazione di attività per una ricerca immediata.