PaliGemma

PaliGemma ist ein einfaches, offenes Vision-Language-Modell (VLM), das von PaLI-3 inspiriert und auf offenen Komponenten wie dem SigLIP-Visionsmodell und dem Gemma-Sprachmodell basiert. PaliGemma verwendet sowohl Bilder als auch Text als Eingabe und kann Fragen zu Bildern mit Details und Kontext beantworten. Das bedeutet, dass PaliGemma Bilder eingehender analysieren und nützliche Informationen liefern kann, z. B. Untertitel für Bilder und kurze Videos, Objekterkennung und das Lesen von eingebettetem Text in Bildern.

Es gibt zwei Arten von PaliGemma-Modellen, einen für allgemeine Zwecke und ein forschungsorientiertes Modell:

  • PaliGemma: Vortrainierte Modelle für allgemeine Zwecke, die auf eine Vielzahl von Aufgaben abgestimmt werden können.
  • PaliGemma-FT: Forschungsorientierte Modelle, die auf bestimmte Forschungs-Datasets abgestimmt sind.

Dies bietet unter anderem die folgenden Vorteile:

  • Erkennt gleichzeitig Bilder und Text.
  • Lässt sich für eine Vielzahl von Sehsprachaufgaben optimieren.
  • Sie verfügt über einen Prüfpunkt, der für eine sofortige Recherche auf verschiedene Aufgaben abgestimmt ist.

Weitere Informationen

Die Modellkarte von PaliGemma enthält unter anderem detaillierte Informationen zum Modell, Implementierungsinformationen, Bewertungsinformationen, Modellnutzung und -einschränkungen.
Hier finden Sie weiteren Code, Colab-Notebooks, Informationen und Diskussionen über PaliGemma auf Kaggle.
Ein funktionierendes Beispiel für die Feinabstimmung von PaliGemma mit JAX in Colab ausführen