PaliGemma

Gemma 4 wurde veröffentlicht und unterstützt Text-, Audio- und Bildeingaben sowie ein langes Kontextfenster mit bis zu 256.000 Tokens. Weitere Informationen

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 und PaliGemma sind einfache, offene Vision-Language-Modelle (VLM), die von PaLI-3 inspiriert wurden und auf offenen Komponenten wie dem SigLIP-Visionsmodell und dem Gemma-Sprachmodell basieren. PaliGemma nimmt sowohl Bilder als auch Text als Eingaben entgegen und kann Fragen zu Bildern mit Details und Kontext beantworten. Das bedeutet, dass PaliGemma eine detailliertere Bildanalyse durchführen und nützliche Informationen liefern kann, z. B. Bildunterschriften und Kurzvideos, Objekterkennung und das Lesen von in Bildern eingebettetem Text.

PaliGemma 2 ist mit den Parametergrößen 3 Milliarden, 10 Milliarden und 28 Milliarden verfügbar. Diese basieren auf den Gemma 2-Modellen mit 2 Milliarden, 9 Milliarden und 27 Milliarden Parametern. Die ursprünglichen PaliGemma-Modelle sind in der Größe 3B verfügbar. Weitere Informationen zu Gemma-Modellvarianten finden Sie in der Liste der Gemma-Modelle. PaliGemma-Modellvarianten unterstützen unterschiedliche Pixelauflösungen für Bildeingaben, darunter 224 × 224, 448 × 448 und 896 × 896 Pixel.

Sie können PaliGemma-Modelle auf den folgenden Websites ansehen und herunterladen:

Herunterladen von Kaggle
Laden Sie es von Hugging Face herunter.

Es gibt drei Kategorien von PaliGemma-Modellen:

PaliGemma PT: Vortrainierte Modelle für allgemeine Zwecke, die für eine Vielzahl von Aufgaben optimiert werden können.
PaliGemma FT: Forschungsorientierte Modelle, die für bestimmte Forschungsdatensätze optimiert wurden.
PaliGemma-Mix: Modelle, die auf eine Mischung aus Aufgaben abgestimmt sind und für gängige Anwendungsfälle ohne zusätzliche Anpassungen verwendet werden können.

Dies bietet unter anderem die folgenden Vorteile:

Multimodale Funktion

Es werden gleichzeitig Bilder und Text verarbeitet.
Vielseitiges Basismodell

Lässt sich für eine Vielzahl von Sehsprachaufgaben optimieren.
Gebrauchsfertige Erkundung

Enthält einen Checkpoint, der für die sofortige Forschungsnutzung auf eine Mischung aus Aufgaben abgestimmt ist.

PaliGemma

Multimodale Funktion

Vielseitiges Basismodell

Gebrauchsfertige Erkundung

Weitere Informationen

In Colab ausführen

In Colab

Auf Kaggle ansehen