PaliGemma

Im Gemma Cookbook-Repository finden Sie Beispiele für die Generierung und Feinabstimmung. Weitere Informationen

Diese Seite wurde von der Cloud Translation API übersetzt.

PaliGemma ist ein leichtes offenes Vision Language Model (VLM), das inspiriert ist von PaLI-3 und auf offenen Komponenten wie SigLIP Vision-Modells und der Gemma-Sprache Modell. PaliGemma verwendet Bilder und Text als Eingabe und kann Fragen zu mit Details und Kontext versehen, sodass PaliGemma eine tiefere Analyse durchführen kann. Bilder und nützliche Informationen liefern, z. B. Untertitel für Bilder und kurze Videos, Objekterkennung und Lesen von in Bildern eingebetteten Texten.

Es gibt zwei Arten von PaliGemma-Modellen: ein Modell für allgemeine Zwecke und ein forschungsorientiertes Modell:

PaliGemma – Vortrainierte allgemeine Modelle, die für eine Vielzahl von Aufgaben optimiert werden können.
PaliGemma-FT – Forschungsorientierte Modelle, die auf bestimmte Forschungs-Datasets abgestimmt sind.

Wichtig:Die meisten PaliGemma-Modelle erfordern eine Feinabstimmung um nützliche Ergebnisse zu erhalten, außer bei der paligemma-3b-mix-Variante. Sie sollten diese Modelle optimieren und die Ausgabe testen bevor Sie sie für Endnutzer bereitstellen.

Dies bietet unter anderem die folgenden Vorteile:

Multimodales Verständnis

Erkennt gleichzeitig Bilder und Text.
Vielseitiges Basismodell

Lässt sich für eine Vielzahl von Sehsprachaufgaben optimieren.
Gebrauchsfertige Erkundung

Sie verfügt über einen Prüfpunkt, der für eine sofortige Recherche auf verschiedene Aufgaben abgestimmt ist.

PaliGemma

Multimodales Verständnis

Vielseitiges Basismodell

Gebrauchsfertige Erkundung

Weitere Informationen

Modellkarte ansehen

Auf Kaggle ansehen

In Colab ausführen