PaliGemma

Gemma 4 è stato rilasciato con input di testo, audio e immagini e una finestra contestuale lunga fino a 256.000 token. Scopri di più

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 e PaliGemma sono modelli linguistici visivi (VLM) aperti e leggeri ispirati a PaLI-3 e basati su componenti aperti come il modello di visione SigLIP e il modello linguistico Gemma. PaliGemma prende come input sia immagini che testo e può rispondere a domande sulle immagini con dettagli e contesto, il che significa che può eseguire un'analisi più approfondita delle immagini e fornire informazioni utili, come sottotitoli codificati per immagini e video brevi, rilevamento di oggetti e lettura del testo incorporato nelle immagini.

PaliGemma 2 è disponibile in dimensioni dei parametri di 3 miliardi, 10 miliardi e 28 miliardi, che si basano rispettivamente sui modelli Gemma 2 di 2 miliardi, 9 miliardi e 27 miliardi. I modelli PaliGemma originali sono disponibili nel formato 3B. Per ulteriori informazioni sulle varianti del modello Gemma, consulta l'elenco dei modelli Gemma. Le varianti del modello PaliGemma supportano diverse risoluzioni in pixel per gli input di immagini, tra cui 224 x 224, 448 x 448 e 896 x 896 pixel.

Puoi visualizzare e scaricare i modelli PaliGemma dai seguenti siti:

Scaricare da Kaggle.
Scarica da Hugging Face.

Esistono tre categorie di modelli PaliGemma:

PaliGemma PT: modelli preaddestrati per uso generico che possono essere ottimizzati su una serie di attività.
PaliGemma FT: modelli orientati alla ricerca ottimizzati su set di dati di ricerca specifici.
PaliGemma mix: modelli ottimizzati per una combinazione di attività che possono essere utilizzati subito per casi d'uso comuni.

I vantaggi principali includono:

Funzionalità multimodale

Gestisce contemporaneamente sia le immagini sia l'input di testo.
Modello di base versatile

Può essere perfezionato per una vasta gamma di attività legate al linguaggio visivo.
Esplorazione pronta all'uso

È dotato di un checkpoint ottimizzato su una combinazione di attività per un utilizzo immediato della ricerca.

PaliGemma

Funzionalità multimodale

Modello di base versatile

Esplorazione pronta all'uso

Scopri di più

Esegui in Colab

Ottimizzazione in Colab

Visualizza su Kaggle