PaliGemma

PaliGemma ist ein leichtes offenes Vision Language Model (VLM), das inspiriert ist von PaLI-3 und auf offenen Komponenten wie SigLIP Vision-Modells und der Gemma-Sprache Modell. PaliGemma verwendet Bilder und Text als Eingabe und kann Fragen zu mit Details und Kontext versehen, sodass PaliGemma eine tiefere Analyse durchführen kann. Bilder und nützliche Informationen liefern, z. B. Untertitel für Bilder und kurze Videos, Objekterkennung und Lesen von in Bildern eingebetteten Texten.

Es gibt zwei Arten von PaliGemma-Modellen: ein Modell für allgemeine Zwecke und ein forschungsorientiertes Modell:

  • PaliGemma – Vortrainierte allgemeine Modelle, die für eine Vielzahl von Aufgaben optimiert werden können.
  • PaliGemma-FT – Forschungsorientierte Modelle, die auf bestimmte Forschungs-Datasets abgestimmt sind.

Dies bietet unter anderem die folgenden Vorteile:

  • Erkennt gleichzeitig Bilder und Text.
  • Lässt sich für eine Vielzahl von Sehsprachaufgaben optimieren.
  • Sie verfügt über einen Prüfpunkt, der für eine sofortige Recherche auf verschiedene Aufgaben abgestimmt ist.

Weitere Informationen

Die Modellkarte von PaliGemma enthält unter anderem detaillierte Informationen zum Modell, Implementierungsinformationen, Bewertungsinformationen, Modellnutzung und -einschränkungen.
Hier finden Sie weiteren Code, Colab-Notebooks, Informationen und Diskussionen über PaliGemma auf Kaggle.
Ein funktionierendes Beispiel für die Feinabstimmung von PaliGemma mit JAX in Colab ausführen