PaliGemma
PaliGemma ist ein leichtes offenes Vision Language Model (VLM), das inspiriert ist von PaLI-3 und auf offenen Komponenten wie SigLIP Vision-Modells und der Gemma-Sprache Modell. PaliGemma verwendet Bilder und Text als Eingabe und kann Fragen zu mit Details und Kontext versehen, sodass PaliGemma eine tiefere Analyse durchführen kann. Bilder und nützliche Informationen liefern, z. B. Untertitel für Bilder und kurze Videos, Objekterkennung und Lesen von in Bildern eingebetteten Texten.
Es gibt zwei Arten von PaliGemma-Modellen: ein Modell für allgemeine Zwecke und ein forschungsorientiertes Modell:
- PaliGemma – Vortrainierte allgemeine Modelle, die für eine Vielzahl von Aufgaben optimiert werden können.
- PaliGemma-FT – Forschungsorientierte Modelle, die auf bestimmte Forschungs-Datasets abgestimmt sind.
Dies bietet unter anderem die folgenden Vorteile:
-
Multimodales Verständnis
Erkennt gleichzeitig Bilder und Text. -
Vielseitiges Basismodell
Lässt sich für eine Vielzahl von Sehsprachaufgaben optimieren. -
Gebrauchsfertige Erkundung
Sie verfügt über einen Prüfpunkt, der für eine sofortige Recherche auf verschiedene Aufgaben abgestimmt ist.