PaliGemma-Modellkarte

Modellseite:PaliGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google

Modellinformationen

Modellübersicht

Beschreibung

PaliGemma ist ein vielseitiges und schlankes Vision-Language-Modell (VLM), das von PaLI-3 inspiriert und auf offenen Komponenten wie dem SigLIP-Visionsmodell und dem Gemma-Sprachmodell basiert. Es nimmt sowohl Bilder als auch Text als Eingabe und generiert Text als Ausgabe, die mehrere Sprachen unterstützt. Es wurde für klassenführende Aufgaben zur Feinabstimmung bei einer Vielzahl von visuellen Aufgaben, wie Bild- und kurzen Videountertiteln, visuellen Fragenbeantworten, Lesen von Texten, Objekterkennung und Objektsegmentierung entwickelt.

Modellarchitektur

PaliGemma ist die Zusammensetzung aus einem Transformer-Decoder und einem Vision Transformer-Bildencoder mit insgesamt 3 Milliarden Parametern. Der Textdecoder wird von Gemma-2B initialisiert. Der Bildencoder wird von SigLIP-So400m/14 initialisiert. PaliGemma wird nach den PaLI-3-Rezepten trainiert.

Ein- und Ausgaben

  • Eingabe:Bild- und Textstring, z. B. eine Aufforderung zum Beschriften des Bildes oder eine Frage.
  • Ausgabe:Generierter Text als Antwort auf die Eingabe, z. B. eine Bildunterschrift, eine Antwort auf eine Frage, eine Liste der Koordinaten des Objektbegrenzungsrahmens oder Segmentierungscodewörter.

Modelldaten

Datasets vortrainieren

PaliGemma wurde mit der folgenden Mischung von Datasets vortrainiert:

  • WebLI: WebLI (Web Language Image) ist ein mehrsprachiges Bildtext-Dataset auf Webniveau, das aus dem öffentlichen Web erstellt wurde. Es wird eine breite Palette von WebLI-Splits verwendet, um vielseitige Modellfunktionen zu erwerben, z. B. visuelles semantisches Verständnis, Objektlokalisierung, visuell platziertes Textverständnis, Mehrsprachigkeit usw.
  • CC3M-35L: Ausgewählte englische Bild-Alt-Text-Paare von Webseiten (Sharma et al., 2018). Wir haben die Google Cloud Translation API verwendet, um in 34 weitere Sprachen zu übersetzen.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: Eine Untergruppe von VQ2A-CC3M (Changpinyo et al., 2022a) mit der Google Cloud Translation API in dieselben weiteren 34 Sprachen wie CC3M-35L übersetzt werden.
  • OpenImages: Fragen und Antworten zur Erkennung und objektsensitiven Fragen und Antworten (Piergiovanni et al. 2022), die durch manuell erstellte Regeln zum OpenImages-Dataset generiert wurden.
  • WIT:Bilder und Texte von Wikipedia (Srinivasan et al., 2021).

Filtern nach Verantwortung für Daten

Die folgenden Filter werden auf WebLI angewendet, um PaliGemma mit sauberen Daten zu trainieren:

  • Filterung pornografischer Bilder:Mit diesem Filter werden Bilder entfernt, die pornografischer Natur sind.
  • Sicherheitsfilter für Text:Wir identifizieren und filtern Bilder heraus, die mit unsicherem Text kombiniert sind. Unsicherer Text ist jeglicher Text, der CSAI, Pornografie, vulgäre oder sonstige anstößige Inhalte enthält oder sich darauf bezieht.
  • Filtern auf unangemessene Textinhalte:Wir verwenden außerdem die Perspective API, um Bilder zu identifizieren und herauszufiltern, die mit Text verbunden sind, der als beleidigend, obszön, hasserfüllt oder anderweitig unangemessen ist.
  • Filtern personenbezogener Textdaten:Wir haben bestimmte personenbezogene Daten und andere sensible Daten mithilfe der Cloud Data Loss Prevention (DLP) API gefiltert, um die Privatsphäre von Einzelpersonen zu schützen. Kennungen wie Sozialversicherungsnummern und andere Arten vertraulicher Informationen wurden entfernt.
  • Zusätzliche Methoden:Filtern nach Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien und Praktiken.

Informationen zur Implementierung

Hardware

PaliGemma wurde mit der neuesten Generation der Tensor Processing Unit (TPU)-Hardware (TPUv5e) trainiert.

Software

Das Training wurde mit JAX, Flax, TFDS und big_vision durchgeführt.

Mit JAX können Forscher die neueste Hardwaregeneration, einschließlich TPUs, für ein schnelleres und effizienteres Training großer Modelle nutzen.

TFDS wird für den Zugriff auf Datasets und Flax für die Modellarchitektur verwendet. Der Optimierungscode von PaliGemma und der Inferenzcode werden im GitHub-Repository big_vision veröffentlicht.

Informationen zur Bewertung

Benchmarkergebnisse

Um die Übertragbarkeit von PaliGemma auf eine Vielzahl von wissenschaftlichen Aufgaben zu überprüfen, optimieren wir die vortrainierten Modelle für jede Aufgabe. Außerdem trainieren wir das Mix-Modell mit einer Mischung der Übertragungsaufgaben. Wir veröffentlichen Ergebnisse zu unterschiedlichen Auflösungen, um einen Eindruck davon zu vermitteln, welche Aufgaben von einer höheren Auflösung profitieren. Wichtig ist, dass keine dieser Aufgaben oder Datasets Teil der Gemischung für Vortrainingsdaten ist und ihre Bilder explizit aus den Vortrainingsdaten auf Webniveau entfernt werden.

Einzelne Aufgabe (für einzelne Aufgabe feinabstimmen)

Benchmark (Trainingsaufteilung) Messwert (Aufteilung) pt-224 pt-448 pt-896
Untertitel erstellen
COCO-Untertitel (Zug+Ruhetal) CIDEr (Wert) 141,92 144,60
NoCaps (Bewertung der COCO-Untertitelübertragung) CIDEr (Wert) 121,72 123,58
COCO-35L (Zug) CIDEr-Entwicklung (en/avg-34/avg)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (Auswertung der COCO-35L-Übertragung) CIDEr-Entwicklung (en/avg-34/avg)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (Training) CIDEr (Wert) 127,48 153,94
SciCap (erster Satz, keine Unterfigur) (Zug+Wert) CIDEr/BLEU-4 (Test)
162,25
0,192
181,49
0,211
Screen2words (Zug+Entw.) CIDEr (Test) 117,57 119,59
Widget-Untertitel (train+dev) CIDEr (Test) 136,07 148,36
Question Answering
VQAv2 (Training und Validierung) Genauigkeit (Testserver – Standard) 83,19 85,64
MMVP (Bewertung der VQAv2-Übertragung) Gekoppelte Genauigkeit 47,33 45,33
POPE (Bewertung der VQAv2-Übertragung) Genauigkeit (zufällig/beliebt/gegnerisch)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (Training) Genauigkeit (val) 63,54 63,15
A-OKVQA (MC) (Zug+Wert) Genauigkeit (Testserver) 76,37 76,90
A-OKVQA (DA) (Zug+Wert) Genauigkeit (Testserver) 61,85 63,22
GQA (train_balanced+val_balanced) Genauigkeit (testdev ausbalanciert) 65,61 67,03
xGQA (Bewertung der GQA-Übertragung) Durchschnittliche Genauigkeit (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (Zug + Entwicklung) Genauigkeit (Test) 90,02 88,93
MaRVL (Bewertung der NLVR2-Übertragung) Durchschnittliche Genauigkeit (Test) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (Zug) Genauigkeit (Test) 72,12 73,28
ScienceQA (Img-Teilmenge, keine CoT) (Training + Wert) Genauigkeit (Test) 95,39 95,93
RSVQA-LR (nicht numerisch) (Training + Wert) Durchschnittliche Genauigkeit (Test) 92,65 93,11
RSVQA-HR (nicht numerisch) (Training + Wert) Durchschnittliche Genauigkeit (Test/Test2)
92,61
90,58
92,79
90,54
ChartQA (Mensch+Augen)x(Zug+Wert) Durchschnittliche entspannte Genauigkeit (test_human, test_aug) 57,08 71,36
VizWiz VQA (Zug+Wert) Genauigkeit (Testserver – Standard) 73,7 75,52
TallyQA (Training) Genauigkeit (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (Training + Wert) Genauigkeit (Test) 72,32 74,61 74,93
TextVQA (Training + Wert) Genauigkeit (Testserver – Standard) 55,47 73,15 76,48
DocVQA (Training+Wert) ANLS (Test server) 43,74 78,02 84,77
Infografik VQA (Training und Auswertung) ANLS (Test server) 28,46 40,47 47,75
SceneText-VQA (Training + Bewertung) ANLS (Test server) 63,29 81,82 84,40
Segmentierung
RefCOCO (kombinierter RefCOCO, Refcoco+, Refcog ohne Val und Testbilder) MIoU (Validierung) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Videoaufgaben (Untertitel/QA)
MSR-VTT (Untertitelung) CIDEr (Test) 70,54
MSR-VTT (QA) Genauigkeit (Test) 50,09
ActivityNet (Untertitelung) CIDEr (Test) 34,62
ActivityNet (QA) Genauigkeit (Test) 50,78
VATEX (Untertitel) CIDEr (Test) 79,73
MSVD (QA) Genauigkeit (Test) 60,22

Mixmodell (mit einer Mischung von Übertragungsaufgaben abstimmen)

Benchmark Messwert (Aufteilung) mix-224 mix-448
MMVP Gekoppelte Genauigkeit 46,00 45,33
POPE Genauigkeit (zufällig/beliebt/gegnerisch)
88,00
86,63
85,67
89,37
88,40
87,47

Ethik und Sicherheit

Bewertungsansatz

Unsere Bewertungsmethoden umfassen strukturierte Auswertungen und interne Red-Team-Tests relevanter Inhaltsrichtlinien. Red-Team-Einsätze wurden von verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und menschliche Bewertungsmesswerte verfolgten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

  • Manuelle Bewertung von Prompts zum Schutz von Kindern, zur Sicherheit von Inhalten und zu Schäden durch die Darstellung. Weitere Informationen zum Bewertungsansatz finden Sie auf der Karte des Gemma-Modells. Dort finden Sie auch Bilduntertitel und visuelle Fragenbeantwortungen.
  • Bild-zu-Text-Benchmark-Bewertung: Benchmarking anhand relevanter akademischer Datasets wie FairFace Dataset (Karkkainen et al., 2021).

Bewertungsergebnisse

  • Die Ergebnisse der menschlichen Bewertung von Ethik und Sicherheit liegen innerhalb der akzeptablen Grenzwerte für die Einhaltung der internen Richtlinien für Kategorien wie Schutz von Kindern, Sicherheit von Inhalten und Verletzungen der Repräsentation.
  • Zusätzlich zu zuverlässigen internen Prüfungen verwenden wir die Perspective API (Schwellenwert von 0, 8), um unangemessene Kommentare, vulgäre Sprache und andere potenzielle Probleme in den generierten Untertiteln für Bilder aus dem FairFace-Dataset zu messen. Wir melden die Höchst- und Medianwerte, die in den Untergruppen für jedes vermeintliche Geschlecht, die ethnische Zugehörigkeit und das Altersattribut beobachtet wurden.
Messwert Wahrgenommenes Geschlecht Ethnische Herkunft Altersgruppe
Maximum Medianwert Maximum Medianwert Maximum Medianwert
Toxizität 0,04 % 0,03 % 0,08% 0,00 % 0,09 % 0,00 %
Identitätsangriff 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 %
Beleidigung 0,06 % 0,04 % 0,09 % 0,07 % 0,16 % 0,00 %
Bedrohung 0,06 % 0,05 % 0,14 % 0,05 % 0,17% 0,00 %
Vulgäre Sprache 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 %

Nutzung und Einschränkungen

Verwendungszweck

Open Vision Language Models (VLMs) haben eine breite Palette von Anwendungen in verschiedenen Branchen und Domains. Die folgende Liste möglicher Anwendungsfälle ist nicht vollständig. Mit dieser Liste erhalten Sie Kontextinformationen zu den möglichen Anwendungsfällen, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung in Betracht gezogen haben.

Eine spezifische Visionssprache-Aufgabe anpassen:

  • Die vortrainierten Modelle können für eine Vielzahl von visuellen Aufgaben optimiert werden, z. B. Bilduntertitel, kurze Videountertitel, das Beantworten visueller Fragen, Lesen von Texten, Objekterkennung und Objektsegmentierung.
  • Die vortrainierten Modelle lassen sich für bestimmte Bereiche optimieren, z. B. das Beantworten von Remote-Sensing-Fragen, visuelle Fragen von Blinden, das Beantworten wissenschaftlicher Fragen oder das Beschreiben von Funktionen von UI-Elementen.
  • Die vortrainierten Modelle können für Aufgaben mit nicht textbasierten Ausgaben wie Begrenzungsrahmen oder Segmentierungsmasken optimiert werden.

Forschung in der Sehsprache:

  • Die vortrainierten Modelle und die fein abgestimmten Modelle können als Grundlage dienen, damit Forscher mit VLM-Techniken experimentieren, Algorithmen entwickeln und zum Fortschritt in diesem Bereich beitragen können.

Ethische Überlegungen und Risiken

Die Entwicklung von Vision-Language-Modellen (VLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig bedacht:

  • Voreingenommenheit und Fairness
    • VLMs, die mit umfangreichen realen Bildtextdaten trainiert wurden, können soziokulturelle Vorurteile widerspiegeln, die im Trainingsmaterial eingebettet sind. Diese Modelle wurden sorgfältig geprüft. Die in dieser Karte beschriebene Vorverarbeitung von Eingabedaten und die nachfolgenden Auswertungen wurden ebenfalls sorgfältig geprüft.
  • Fehlinformationen und Missbrauch
    • VLMs können missbraucht werden, um falschen, irreführenden oder schädlichen Text zu generieren.
    • Richtlinien für die verantwortungsvolle Verwendung des Modells finden Sie im Responsible Generative AI Toolkit.
  • Transparenz und Rechenschaftspflicht
    • Auf dieser Modellkarte werden Details zur Architektur, zu den Funktionen, Beschränkungen und Bewertungsprozessen des Modells zusammengefasst.
    • Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die VLM-Technologie für Entwickler und Forschende in der gesamten KI-Umgebung zugänglich gemacht wird.

Identifizierte Risiken und Minderung:

  • Verzerrungen beibehalten:Es wird empfohlen, ein kontinuierliches Monitoring (mithilfe von Bewertungsmesswerten, manuelle Überprüfung) und die Untersuchung von Techniken zur Verzerrungen beim Modelltraining, bei der Feinabstimmung und bei anderen Anwendungsfällen durchzuführen.
  • Erstellung schädlicher Inhalte:Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten daher vorsichtig sein und angemessene Maßnahmen zur Sicherheit von Inhalten auf der Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsfälle implementieren.
  • Missbrauch für böswillige Zwecke:Technische Einschränkungen und die Schulung von Entwicklern und Endnutzern können dazu beitragen, die Vorbeugung gegen schädliche Anwendungen von LLMs zu verhindern. Es stehen Informationsressourcen und Meldemechanismen zur Verfügung, mit denen Nutzer Missbrauch melden können: siehe Responsible Generative AI Toolkit. Die unzulässige Verwendung von Gemma-Modellen wird in der Gemma-Richtlinie zur unzulässigen Nutzung beschrieben.
  • Datenschutzverstöße:Modelle wurden mit Daten trainiert, die gefiltert wurden, um bestimmte personenbezogene und sensible Daten zu entfernen. Entwickler werden dazu angehalten, die Datenschutzbestimmungen mit datenschutzfreundlichen Verfahren einzuhalten.

Beschränkungen

  • Die meisten Einschränkungen des zugrunde liegenden Gemma-Modells gelten weiterhin:
    • VLMs eignen sich besser für Aufgaben, die mit klaren Aufforderungen und Anweisungen umrahmt werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
    • Natürliche Sprache ist von Natur aus komplex. VLMs haben möglicherweise Schwierigkeiten, feine Nuancen, Sarkasmus oder symbolische Sprache zu verstehen.
    • VLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets gewonnen haben, aber sie sind keine Wissensdatenbanken. Sie können falsche oder veraltete Faktenaussagen enthalten.
    • VLMs beruhen auf statistischen Mustern in Sprache und Bildern. Möglicherweise fehlt ihnen in bestimmten Situationen die Fähigkeit, gesunden Menschenverstand anzuwenden.
  • PaliGemma wurde in erster Linie als allgemeines vortrainiertes Modell für die Feinabstimmung spezieller Aufgaben entwickelt. Daher kann die sofort einsatzbereite oder Zero-Shot-Leistung hinter Modellen zurückbleiben, die speziell dafür entwickelt wurden.
  • PaliGemma ist kein Multi-Turn-Chatbot. Er ist für eine einzelne Bild- und Texteingabe vorgesehen.