PaliGemma 2-Modellkarte

Modellseite:PaliGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Begriffe

Autoren: Google

Modellinformationen

Modellübersicht

PaliGemma 2 ist ein Update des PaliGemma-Vision-Language-Modells (VLM), das die Funktionen der Gemma 2-Modelle enthält. Die PaliGemma-Modellfamilie wurde von PaLI-3 inspiriert und basiert auf offenen Komponenten wie dem SigLIP-Modell für Computer Vision und den Gemma 2-Sprachmodellen. Sie nimmt sowohl Bilder als auch Text als Eingabe an und generiert Text als Ausgabe. Dabei werden mehrere Sprachen unterstützt. Es wurde für eine erstklassige Leistung bei der Feinabstimmung für eine Vielzahl von Aufgaben im Bereich Bild- und Sprachverarbeitung entwickelt, z. B. Bild- und Kurzvideounterschriften, Beantworten visueller Fragen, Textlesen, Objekterkennung und Objektsegmentierung.

Modellarchitektur

PaliGemma 2 besteht aus einem Transformer-Decoder und einem Vision Transformer-Bildencoder. Der Textdecoder wird von Gemma 2 mit den Parametergrößen 2 B, 9 B und 27 B initialisiert. Der Bildencoder wird von SigLIP-So400m/14 initialisiert. Ähnlich wie das ursprüngliche PaliGemma-Modell wird PaliGemma 2 gemäß den PaLI-3 trainiert.

Eingaben und Ausgaben

  • Eingabe: Bild und Textstring, z. B. ein Prompt für eine Bildunterschrift oder eine Frage.
  • Ausgabe: Generierter Text als Antwort auf die Eingabe, z. B. eine Bildunterschrift, eine Antwort auf eine Frage, eine Liste mit Koordinaten für den Begrenzungsrahmen eines Objekts oder Segmentierungs-Codewörter.

Quellenangabe

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Modelldaten

Datasets vortrainieren

PaliGemma 2 wurde mit der folgenden Mischung aus Datasets vortrainiert:

  • WebLI: WebLI (Web Language Image) ist ein mehrsprachiger Bild-Text-Dataset im Webmaßstab, der aus dem öffentlichen Web erstellt wurde. Mit einer Vielzahl von WebLI-Splits werden vielseitige Modellfunktionen wie visuelles semantisches Verständnis, Objektlokalisierung, visuell situiertes Textverständnis und Mehrsprachigkeit erworben.
  • CC3M-35L:Ausgewählte englische Bild-Alt-Text-Paare von Webseiten (Sharma et al., 2018). Wir haben die Google Cloud Translation API verwendet, um die Inhalte in 34 weitere Sprachen zu übersetzen.
  • VQ²A-CC3M-35L/VQG-CC3M-35L::Teilmenge von VQ2A-CC3M (Changpinyo et al., 2022a), die mit der Google Cloud Translation API in dieselben zusätzlichen 34 Sprachen wie CC3M-35L übersetzt wurden.
  • OpenImages:Erkennungs- und objektbezogene Fragen und Antworten (Piergiovanni et al. 2022), die mithilfe von handgefertigten Regeln im OpenImages-Dataset generiert wurden.
  • WIT: Bilder und Texte aus Wikipedia (Srinivasan et al., 2021).

PaliGemma 2 basiert auf Gemma 2. Informationen zu den Datasets für das Vortraining von Gemma 2 finden Sie auf der Modellkarte für Gemma 2.

Filter für den verantwortungsvollen Umgang mit Daten

Die folgenden Filter werden auf WebLI angewendet, um PaliGemma 2 mit sicheren und verantwortungsbewussten Daten zu trainieren:

  • Filter für pornografische Bilder:Mit diesem Filter werden Bilder entfernt, die als pornografisch eingestuft werden.
  • Filter für sichere Texte:Wir erkennen und filtern Bilder heraus, die mit unsicheren Texten kombiniert sind. Als unsicher gilt jeder Text, der Bilder des sexuellen Missbrauchs von Kindern, Pornografie, vulgäre Sprache oder andere anstößige Inhalte enthält oder sich darauf bezieht.
  • Filterung unangemessener Texte:Außerdem verwenden wir die Perspective API, um Bilder zu erkennen und herauszufiltern, die mit Texten kombiniert sind, die als anstößig, obszön, hasserfüllt oder anderweitig unangemessen eingestuft werden.
  • Filtern personenbezogener Daten in Texten:Wir haben bestimmte personenbezogene Daten und andere sensible Daten mithilfe der Cloud Data Loss Prevention API gefiltert, um die Privatsphäre von Personen zu schützen. Kennungen wie Sozialversicherungsnummern und andere Arten vertraulicher Informationen wurden entfernt.
  • Zusätzliche Methoden:Filterung anhand der Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien und Verfahren.

Informationen zur Implementierung

Hardware

PaliGemma 2 wurde mit der neuesten Generation von TPU-Hardware (Tensor Processing Unit, TPUv5e) trainiert.

Software

Das Training wurde mit JAX, Flax, TFDS und big_vision durchgeführt.

Mit JAX können Forscher die neueste Hardwaregeneration, einschließlich TPUs, nutzen, um große Modelle schneller und effizienter zu trainieren.

TFDS wird für den Zugriff auf Datasets und Flax für die Modellarchitektur verwendet. Der Code für die Feinabstimmung und der Inferenzcode von PaliGemma 2 sind im big_visionGitHub-Repository verfügbar.

Informationen zur Bewertung

Benchmark-Ergebnisse

Um die Übertragbarkeit von PaliGemma 2 auf eine Vielzahl akademischer Aufgaben zu überprüfen, optimieren wir die vorab trainierten Modelle für jede Aufgabe. Wir geben Ergebnisse für verschiedene Auflösungen an, um einen Eindruck davon zu vermitteln, bei welchen Aufgaben eine höhere Auflösung von Vorteil ist. Wichtig ist, dass keine dieser Aufgaben oder Datasets Teil der Vortrainingsdatenmischung sind und ihre Bilder ausdrücklich aus den Vortrainingsdaten im Web-Maßstab entfernt werden.

PaliGemma 2-Ergebnisse nach Modellauflösung und -größe

Benchmark 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74,7 83,1 83,2 76,0 84,4 84,6
AOKVQA-DA (val) 64,2 68,9 70,2 67,9 70,8 71.2
AOKVQA-MC (val) 79,7 83,7 84,7 82,5 85,9 87,0
ActivityNet-CAP 34,2 35,9 - - - -
ActivityNet-QA 51.3 53,2 - - - -
COCO-35L (avg34) 113,9 115,8 116,5 115,8 117,2 117,2
COCO-35L (en) 138,4 140,8 142,4 140,4 142,4 142,3
COCOcap 141,3 143,7 144,0 143,4 145.0 145,2
ChartQA (im Schnitt) 74,4 74,2 68,9 89,2 90,1 85,1
ChartQA (menschlich) 42,0 48,4 46,8 54,0 66,4 61.3
CountBenchQA 81,0 84,0 86,4 82,0 85,3 87,4
DocVQA (val) 39,9 43,9 44,9 73,6 76,6 76,1
GQA 66,2 67,2 67,3 68.1 68,3 68,3
InfoVQA (val) 25,2 33,6 36,4 37,5 47,8 46,7
MARVL (avg5) 83,5 89,5 90,6 82,7 89,1 89.7
MSRVTT-CAP 68,5 72,1 - - - -
MSRVTT-QA 50,5 51,9 - - - -
MSVD-QA 61.1 62,5 - - - -
NLVR2 91,4 93,9 94,2 91,6 93,7 94,1
NoCaps 123,1 126,3 127.1 123,5 126,9 127,0
OCR-VQA 73,4 74,7 75,3 75,7 76,3 76,6
OKVQA 64,2 68,0 71.2 64.1 68,6 70,6
RSVQA-hr (Test) 92,7 92,6 92,7 92,8 92,8 92,8
RSVQA-hr (test2) 90,9 90,8 90,9 90,7 90,7 90,8
RSVQA-lr 93,0 92,8 93,5 92,7 93,1 93,7
RefCOCO (testA) 75,7 77,2 76,8 78,6 79,7 79,3
RefCOCO (testB) 71,0 74,2 73,9 73,5 76,2 74,8
RefCOCO (val) 73,4 75,9 75,0 76,3 78,2 77,3
RefCOCO+ (testA) 72,7 74,7 73,6 76,1 77,7 76,6
RefCOCO+ (testB) 64,2 68,4 67,1 67,0 71.1 68,6
RefCOCO+ (val) 68,6 72,0 70,3 72,1 74,4 72,8
RefCOCOg (Test) 69,0 71,9 70,7 72,7 74,8 73,7
RefCOCOg (val) 68,3 71,4 70,5 72,3 74,4 73,0
ST-VQA (val) 61,9 64,3 65.1 80,5 82,0 81,8
SciCap 165,1 159,5 156,9 183,3 177,2 172.7
ScienceQA 96,1 98,2 98,2 96,2 98,5 98,6
Screen2Words 113,3 117,8 122,8 114.0 119.1 123,4
TallyQA (komplex) 70,3 73,4 74,2 73,6 76,7 76,8
TallyQA (einfach) 81,8 83,2 83,4 85,3 86,2 85,7
TextCaps 127,5 137,9 139,9 152.1 157,7 153,6
TextVQA (val) 59,6 64,0 64,7 75,2 76,6 76,2
VATEX 80,8 82,7 - - - -
VQAv2 (minival) 83 84,3 84,5 84,8 85,8 85,8
VizWizVQA (val) 76,4 78,1 78,7 77,5 78,6 78,9
WidgetCap 138,1 139,8 138,8 151,4 151,9 148,9
XM3600 (avg35) 42,8 44,5 45.2 43,2 44,6 45.2
XM3600 (en) 79,8 80,7 81,0 80,3 81,5 81,0
xGQA (7 Tage) 58,6 61,4 61.1 60,4 62,6 62,1

Zusätzliche Benchmarks

ICDAR 2015 Incidental

Modell Precision Recall F1
PaliGemma 2 3B 81,88 70,73 75,9

Total-Text

Modell Precision Recall F1
PaliGemma 2 3B 73,8. 74,54 74,17

FinTabNet

Modell S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99,18 98,94 99,43 99,21

PubTabNet

Modell S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97,6 97,31 97,99 97,84

GrandStaff

Modell CER LER SER
PaliGemma 2 3B 1,6 6.7 2.3

PubChem

  • PaliGemma 2 3B, vollständige Übereinstimmung: 94,8

DOCCI

Modell avg#char avg#sent NES %
PaliGemma 2 3B 529 7,74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char: Durchschnittliche Anzahl der Zeichen
  • avg#sent: Durchschnittliche Anzahl von Sätzen
  • NES: Nicht-impliziter Satz

MIMIC-CXR

Modell CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19,9% 14,6 % 31,92% 28,8%
PaliGemma 2 10B 17,4% 15 % 32,41% 29,5%

Visuelles-räumliches Denken

Modell VSR-Test mit Null-Shot-Aufteilung Zufallsaufteilung für variable Preise (Test)
PaliGemma 2 3B 0,75 0,82
PaliGemma 2 10B 0,80 0,87

Ethik und Sicherheit

Bewertungsansatz

Unsere Bewertungsmethoden umfassen strukturierte ethische und sicherheitsbezogene Bewertungen für alle relevanten Inhaltsrichtlinien, darunter:

  • Bewertung durch Menschen anhand von Prompts zum Schutz von Kindern, zur Sicherheit von Inhalten und zu schädlichen Darstellungen. Weitere Informationen zum Bewertungsansatz finden Sie auf der Gemma-Modellkarte, jedoch mit Bilduntertitelung und Visual Question Answering-Konfigurationen.
  • Benchmark-Bewertung für die Bild-zu-Text-Technologie: Benchmark-Vergleich mit relevanten akademischen Datasets wie dem FairFace-Dataset (Karkkainen et al., 2021).

Bewertungsergebnisse

  • Die Ergebnisse der manuellen Bewertungen der Ethik und Sicherheit liegen innerhalb der zulässigen Grenzwerte für die Einhaltung der internen Richtlinien für Kategorien wie den Schutz von Kindern, die Sicherheit von Inhalten und die Darstellung von Schäden.
  • Neben robusten internen Bewertungen verwenden wir auch die Perspective API (Grenzwert 0, 8), um Toxizität, vulgäre Sprache und andere potenzielle Probleme in den generierten Untertiteln für Bilder aus dem FairFace-Dataset zu messen. Wir geben die Maximal- und Medianwerte an, die in den einzelnen Untergruppen für jedes der Attribute „vermeintliches Geschlecht“, „Ethnie“ und „Alter“ beobachtet wurden.
Messwert Wahrgenommenes Geschlecht Ethnische Herkunft Altersgruppe
Modellgröße 3 Mrd. 10 Mrd. 28 B 3 Mrd. 10 Mrd. 28 B 3 Mrd. 10 Mrd. 28 B
Maximum
Toxizität 0,14 % 0,15 % 0,19% 0,29 % 0,39% 0,39% 0,26 % 0,18 % 0,32%
Identitätsdiebstahl 0,04 % 0,02 % 0,02 % 0,13 % 0,06 % 0,06 % 0,06 % 0,03 % 0,06 %
Beleidigung 0,17% 0,25% 0,17% 0,37 % 0,52 % 0,52 % 0,27% 0,39% 0,24%
Bedrohung 0,55% 0,43 % 0,57 % 0,83 % 0,48% 0,48% 0,64 % 0,43 % 0,64 %
Vulgäre Sprache 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 %
Medianwert
Toxizität 0,13 % 0,10% 0,18 % 0,07 % 0,07 % 0,14 % 0,12 % 0,08% 0,12 %
Identitätsdiebstahl 0,02 % 0,01 % 0,02 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 %
Beleidigung 0,15 % 0,23 % 0,14 % 0,14 % 0,17% 0,13 % 0,09 % 0,18 % 0,16 %
Bedrohung 0,35% 0,27% 0,41% 0,28% 0,19% 0,42 % 0,27% 0,31% 0,40 %
Vulgäre Sprache 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 % 0,00 %

Verwendung und Einschränkungen

Verwendungszweck

Open Vision Language Models (VLMs) haben eine breite Palette von Anwendungen in verschiedenen Branchen und Bereichen. Die folgende Liste möglicher Verwendungen ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Ersteller des Modells im Rahmen der Modellschulung und -entwicklung berücksichtigt haben. Unzulässige Verwendungen von Gemma-Modellen sind in der Richtlinie zur unzulässigen Nutzung von Gemma aufgeführt.

Sie können die Modelle für eine bestimmte Aufgabe aus dem Bereich „Vision und Sprache“ optimieren:

  • Die vortrainierten Modelle können für eine Vielzahl von Aufgaben im Bereich Bild- und Sprachverarbeitung optimiert werden, z. B. Bilduntertitelung, Untertitelung kurzer Videos, Beantwortung visueller Fragen, Textlesen, Objekterkennung und Objektsegmentierung.
  • Die vorab trainierten Modelle können für bestimmte Bereiche optimiert werden, z. B. für die Beantwortung von Fragen zu Remote-Sensoren, visuellen Fragen von blinden Personen, wissenschaftlichen Fragen oder die Beschreibung von UI-Elementfunktionen.
  • Die vortrainierten Modelle können für Aufgaben mit nicht textbasierten Ergebnissen wie Begrenzungsrahmen oder Segmentierungsmasken optimiert werden.

Forschung zu visueller Sprache:

  • Die vortrainierten und optimierten Modelle können als Grundlage für Forscher dienen, um mit VLM-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Bereichs beizutragen.

Ethische Aspekte und Risiken

Die Entwicklung von Vision-Language-Modellen (VLMs) wirft mehrere ethische Fragen auf. Bei der Entwicklung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Voreingenommenheit und Fairness
    • VLMs, die mit großen Mengen an realen Bild-Text-Daten trainiert werden, können soziokulturelle Voreingenommenheiten widerspiegeln, die im Trainingsmaterial enthalten sind. Diese Modelle wurden sorgfältig geprüft. Die Vorverarbeitung der Eingabedaten und die nachfolgenden Bewertungen sind auf dieser Karte beschrieben.
  • Fehlinformationen und Missbrauch
    • VLMs können missbraucht werden, um falschen, irreführenden oder schädlichen Text zu generieren.
    • Im Responsible Generative AI Toolkit finden Sie Richtlinien für die verantwortungsvolle Verwendung des Modells.
  • Transparenz und Rechenschaftspflicht
    • Auf dieser Modellkarte finden Sie Details zur Architektur, zu den Funktionen, zu den Einschränkungen und zu den Bewertungsverfahren der Modelle.
    • Ein verantwortungsvoll entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die VLM-Technologie für Entwickler und Forscher im gesamten KI-System zugänglich gemacht wird.

Identifizierte Risiken und Risikominderungen:

  • Verfestigung von Voreingenommenheiten: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle kontinuierliche Überwachung (mithilfe von Bewertungsmesswerten und manueller Überprüfung) durchzuführen und Methoden zur Beseitigung von Voreingenommenheiten zu untersuchen.
  • Erstellung schädlicher Inhalte:Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwicklern wird empfohlen, mit Bedacht vorzugehen und geeignete Maßnahmen zur Sicherheit von Inhalten zu implementieren, die auf ihren spezifischen Produktrichtlinien und Anwendungsfällen basieren.
  • Missbrauch zu böswilligen Zwecken:Technische Einschränkungen und Aufklärung von Entwicklern und Endnutzern können dazu beitragen, die böswillige Verwendung von LLMs zu verhindern. Es werden Informationsressourcen und Meldemechanismen für Nutzer bereitgestellt, mit denen sie Missbrauch melden können: Responsible Generative AI Toolkit. Unzulässige Verwendungen von Gemma-Modellen sind in der Richtlinie zur unzulässigen Nutzung von Gemma aufgeführt.
  • Datenschutzverstöße:Die Modelle wurden mit Daten trainiert, aus denen bestimmte personenbezogene Daten und vertrauliche Daten entfernt wurden. Entwickler werden aufgefordert, Datenschutzbestimmungen mit datenschutzfreundlichen Verfahren einzuhalten.

Beschränkungen

  • Die meisten Einschränkungen, die von den zugrunde liegenden Gemma 2-Modellen übernommen wurden, gelten weiterhin:
    • VLMs eignen sich besser für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder sehr komplexe Aufgaben können eine Herausforderung darstellen.
    • Die natürliche Sprache ist von Natur aus komplex. VLMs haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildhafte Sprache zu verstehen.
    • VLMs generieren Antworten basierend auf Informationen, die sie aus ihren Trainingsdatensätzen gelernt haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Sachinformationen generieren.
    • VLMs basieren auf statistischen Mustern in Sprache und Bildern. Möglicherweise fehlt es ihnen in bestimmten Situationen an gesundem Menschenverstand.
  • PaliGemma 2 wurde in erster Linie als allgemeines vortrainiertes Modell für die Feinabstimmung auf spezielle Aufgaben entwickelt. Daher kann die Leistung „out of the box“ oder „Zero-Shot“ hinter Modellen zurückbleiben, die speziell für den allgemeinen Gebrauch entwickelt wurden.
  • PaliGemma 2 ist kein Chatbot für Unterhaltungen mit mehreren Antworten. Sie ist für eine einzige Runde der Bild- und Texteingabe konzipiert.