Modellseite:PaliGemma
Ressourcen und technische Dokumentation:
Nutzungsbedingungen: Begriffe
Autoren: Google
Modellinformationen
Modellübersicht
Beschreibung
PaliGemma ist ein vielseitiges und schlankes Vision-Language-Modell (VLM), das von PaLI-3 inspiriert wurde und auf offenen Komponenten wie dem SigLIP-Vision-Modell und dem Gemma-Sprachmodell basiert. Es nimmt sowohl Bilder als auch Text als Eingabe entgegen und generiert Text als Ausgabe. Dabei werden mehrere Sprachen unterstützt. Es wurde für eine erstklassige Leistung bei der Feinabstimmung für eine Vielzahl von Aufgaben entwickelt, die Bild- und Spracheingaben erfordern, z. B. Bild- und Kurzvideountertitel, Beantwortung visueller Fragen, Textlesen, Objekterkennung und Objektsegmentierung.
Modellarchitektur
PaliGemma besteht aus einem Transformer-Decoder und einem Vision Transformer-Bildencoder mit insgesamt 3 Milliarden Parametern. Der Textdecoder wird von Gemma-2B initialisiert. Der Bildencoder wird von SigLIP-So400m/14 initialisiert. PaliGemma wird gemäß den PaLI-3-Rezepten trainiert.
Eingaben und Ausgaben
- Eingabe: Bild und Textstring, z. B. ein Prompt für die Bildunterschrift oder eine Frage.
- Ausgabe: Generierter Text als Antwort auf die Eingabe, z. B. eine Bildunterschrift, eine Antwort auf eine Frage, eine Liste mit Koordinaten für den Begrenzungsrahmen eines Objekts oder Segmentierungs-Codewörter.
Zitation
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
Modelldaten
Datasets vortrainieren
PaliGemma wurde mit der folgenden Mischung aus Datasets vortrainiert:
- WebLI: WebLI (Web Language Image) ist ein mehrsprachiger Bild-Text-Dataset im Webmaßstab, der aus dem öffentlichen Web erstellt wurde. Mit einer Vielzahl von WebLI-Splits werden vielseitige Modellfunktionen wie visuelles semantisches Verständnis, Objektlokalisierung, visuell situiertes Textverständnis und Mehrsprachigkeit erworben.
- CC3M-35L:Ausgewählte englische Bild-Alt-Text-Paare von Webseiten (Sharma et al., 2018). Wir haben die Google Cloud Translation API verwendet, um die Inhalte in 34 zusätzliche Sprachen zu übersetzen.
- VQ²A-CC3M-35L/VQG-CC3M-35L::Teilmenge von VQ2A-CC3M (Changpinyo et al., 2022a), die mit der Google Cloud Translation API in dieselben zusätzlichen 34 Sprachen wie CC3M-35L übersetzt wurden.
- OpenImages:Erkennungs- und objektbezogene Fragen und Antworten (Piergiovanni et al. 2022), die mithilfe von handgefertigten Regeln im OpenImages-Dataset generiert wurden.
- WIT:Bilder und Texte aus Wikipedia (Srinivasan et al., 2021).
Filter für den verantwortungsvollen Umgang mit Daten
Die folgenden Filter werden auf WebLI angewendet, um PaliGemma mit sauberen Daten zu trainieren:
- Filter für pornografische Bilder:Mit diesem Filter werden Bilder entfernt, die als pornografisch eingestuft werden.
- Filterung unsicherer Texte:Wir erkennen und filtern Bilder heraus, die mit unsicheren Texten kombiniert sind. Als unsicher gilt jeder Text, der Darstellungen des sexuellen Missbrauchs von Kindern, Pornografie, vulgäre Sprache oder andere anstößige Inhalte enthält.
- Filterung unangemessener Texte:Außerdem verwenden wir die Perspective API, um Bilder zu erkennen und herauszufiltern, die mit Text kombiniert sind, der als anstößig, obszön, hasserfüllt oder anderweitig unangemessen eingestuft wird.
- Filterung personenbezogener Daten in Texten:Wir haben bestimmte personenbezogene Daten und andere sensible Daten mithilfe der Cloud Data Loss Prevention (DLP) API gefiltert, um die Privatsphäre von Personen zu schützen. Kennungen wie Sozialversicherungsnummern und andere Arten vertraulicher Informationen wurden entfernt.
- Zusätzliche Methoden:Filterung anhand der Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien und Verfahren.
Informationen zur Implementierung
Hardware
PaliGemma wurde mit der neuesten Generation von TPU-Hardware (Tensor Processing Unit, TPUv5e) trainiert.
Software
Das Training wurde mit JAX, Flax, TFDS und big_vision
durchgeführt.
Mit JAX können Forscher die neueste Hardwaregeneration, einschließlich TPUs, nutzen, um große Modelle schneller und effizienter zu trainieren.
TFDS wird für den Zugriff auf Datasets und Flax für die Modellarchitektur verwendet. Der Code für die Feinabstimmung und Inferenz von PaliGemma wird im big_vision
GitHub-Repository veröffentlicht.
Informationen zur Bewertung
Benchmark-Ergebnisse
Um die Übertragbarkeit von PaliGemma auf eine Vielzahl akademischer Aufgaben zu überprüfen, optimieren wir die vorab trainierten Modelle für jede Aufgabe. Außerdem trainieren wir das Mix-Modell mit einer Mischung aus den Übertragungsaufgaben. Wir erfassen Ergebnisse für verschiedene Auflösungen, um einen Eindruck davon zu vermitteln, bei welchen Aufgaben eine höhere Auflösung von Vorteil ist. Wichtig ist, dass keine dieser Aufgaben oder Datasets Teil der Vortrainingsdatenmischung sind und ihre Bilder ausdrücklich aus den Vortrainingsdaten im Web-Maßstab entfernt werden.
Einzelne Aufgabe (Optimierung auf einzelne Aufgabe)
Benchmark (Train Split) | Messwert (aufgeteilt) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Untertitel erstellen | ||||
COCO-Untertitel (train+restval) | CIDEr (val) | 141,92 | 144,60 | |
NoCaps (Bewertung der Übertragung von COCO-Untertiteln) | CIDEr (val) | 121,72 | 123,58 | |
COCO-35L (Zug) | CIDEr-Entwicklung (en/avg-34/avg) |
|
|
|
XM3600 (Bewertung der COCO-35L-Übertragung) | CIDEr-Entwicklung (en/avg-34/avg) |
|
|
|
TextCaps (train) | CIDEr (val) | 127,48 | 153,94 | |
SciCap (erster Satz, keine untergeordnete Abbildung) (train+val) | CIDEr/BLEU-4 (Test) |
|
|
|
Screen2words (train+dev) | CIDEr (Test) | 117,57 | 119,59 | |
Untertitel für Widgets (Trainings- und Entwicklungsdaten) | CIDEr (Test) | 136,07 | 148,36 | |
Question Answering | ||||
VQAv2 (Training + Validierung) | Genauigkeit (Testserver – Standard) | 83,19 | 85,64 | |
MMVP (Bewertung der VQAv2-Übertragung) | Genauigkeit bei Kopplung | 47,33 | 45,33 | |
POPE (Bewertung der VQAv2-Übertragung) | Genauigkeit (zufällig/populär/böswillig) |
|
|
|
OKVQA (Zug) | Genauigkeit (val) | 63,54 | 63,15 | |
A-OKVQA (MC) (train+val) | Genauigkeit (Testserver) | 76,37 | 76,90 | |
A-OKVQA (DA) (train+val) | Genauigkeit (Testserver) | 61,85 | 63,22 | |
GQA (train_balanced+val_balanced) | Genauigkeit (testdev balanced) | 65,61 | 67,03 | |
xGQA (Bewertung der GQA-Übertragung) | Durchschnittliche Genauigkeit (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59,07 | |
NLVR2 (train+dev) | Genauigkeit (Test) | 90,02 | 88,93 | |
MaRVL (Bewertung der NLVR2-Übertragung) | Durchschnittliche Genauigkeit (Test) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (Zug) | Genauigkeit (Test) | 72,12 | 73,28 | |
ScienceQA (Img-Subset, kein CoT) (train+val) | Genauigkeit (Test) | 95,39 | 95,93 | |
RSVQA-LR (nicht numerisch) (train+val) | Durchschnittliche Genauigkeit (Test) | 92,65 | 93,11 | |
RSVQA-HR (nicht numerisch) (train+val) | Durchschnittliche Genauigkeit (Test/Test2) |
|
|
|
ChartQA (Mensch+Augmentation) x(Training+Validierung) | Mittlere entspannte Genauigkeit (test_human, test_aug) | 57.08 | 71,36 | |
VizWiz VQA (train+val) | Genauigkeit (Testserver – Standard) | 73,7 | 75,52 | |
TallyQA (train) | Genauigkeit (test_simple/test_complex) |
|
|
|
OCR-VQA (train+val) | Genauigkeit (Test) | 72,32 | 74,61 | 74,93 |
TextVQA (train+val) | Genauigkeit (Testserver – Standard) | 55,47 | 73,15 | 76,48 |
DocVQA (train+val) | ANLS (Test server) | 43,74 | 78,02 | 84,77 |
Infographic VQA (train+val) | ANLS (Test server) | 28.46 | 40.47 | 47,75 |
SceneText VQA (train+val) | ANLS (Test server) | 63,29 | 81,82 | 84,40 |
Segmentierung | ||||
RefCOCO (kombiniertes refcoco, refcoco+, refcocog ohne Val- und Testbilder) | MIoU (Validierung) refcoco/refcoco+/refcocog |
|
|
|
Videoaufgaben (Untertitel/Fragen und Antworten) | ||||
MSR-VTT (Untertitel) | CIDEr (Test) | 70,54 | ||
MSR-VTT (QA) | Genauigkeit (Test) | 50,09 | ||
ActivityNet (Untertitel) | CIDEr (Test) | 34,62 | ||
ActivityNet (QA) | Genauigkeit (Test) | 50,78 | ||
VATEX (Untertitel) | CIDEr (Test) | 79,73 | ||
MSVD (QA) | Genauigkeit (Test) | 60,22 |
Mix-Modell (Optimierung für eine Mischung aus Übertragungsaufgaben)
Benchmark | Messwert (aufgeteilt) | mix-224 | mix-448 |
---|---|---|---|
MMVP | Genauigkeit bei Kopplung | 46,00 | 45,33 |
POPE | Genauigkeit (zufällig/populär/böswillig) |
|
|
Ethik und Sicherheit
Bewertungsansatz
Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und interne Red-Team-Tests der relevanten Inhaltsrichtlinien. Das Red-Teaming wurde von mehreren verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und Bewertungsmesswerte für Menschen hatten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:
- Manuelle Bewertung von Prompts zu den Themen Schutz von Kindern, Inhaltssicherheit und schädliche Darstellungen. Weitere Informationen zum Bewertungsansatz finden Sie auf der Gemma-Modellkarte, jedoch mit Bilduntertitelung und Visual Question Answering-Konfigurationen.
- Benchmark-Bewertung für die Bild-zu-Text-Technologie: Benchmark-Vergleich mit relevanten akademischen Datasets wie dem FairFace-Dataset (Karkkainen et al., 2021).
Bewertungsergebnisse
- Die Ergebnisse der manuellen Bewertungen der ethischen und sicherheitsrelevanten Aspekte liegen innerhalb der zulässigen Grenzwerte für die Einhaltung der internen Richtlinien für Kategorien wie den Schutz von Kindern, die Sicherheit von Inhalten und die Darstellung von Schäden.
- Neben robusten internen Bewertungen verwenden wir auch die Perspective API (Grenzwert 0, 8), um Toxizität, vulgäre Sprache und andere potenzielle Probleme in den generierten Untertiteln für Bilder aus dem FairFace-Dataset zu messen. Wir geben die Maximal- und Medianwerte an, die in den einzelnen Untergruppen für jedes der Attribute „vermeintliches Geschlecht“, „Ethnie“ und „Alter“ beobachtet wurden.
Messwert | Wahrgenommenes Geschlecht | Ethnische Herkunft | Altersgruppe | |||
---|---|---|---|---|---|---|
Maximum | Medianwert | Maximum | Medianwert | Maximum | Medianwert | |
Toxizität | 0,04 % | 0,03 % | 0,08% | 0,00 % | 0,09 % | 0,00 % |
Identitätsdiebstahl | 0,00 % | 0,00 % | 0,00 % | 0,00 % | 0,00 % | 0,00 % |
Beleidigung | 0,06 % | 0,04 % | 0,09 % | 0,07 % | 0,16 % | 0,00 % |
Bedrohung | 0,06 % | 0,05 % | 0,14 % | 0,05 % | 0,17% | 0,00 % |
Vulgäre Sprache | 0,00 % | 0,00 % | 0,00 % | 0,00 % | 0,00 % | 0,00 % |
Nutzung und Einschränkungen
Verwendungszweck
Open Vision Language Models (VLMs) haben eine breite Palette von Anwendungen in verschiedenen Branchen und Bereichen. Die folgende Liste möglicher Verwendungen ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Ersteller des Modells im Rahmen der Modellschulung und -entwicklung berücksichtigt haben. Unzulässige Verwendungen von Gemma-Modellen sind in der Richtlinie zur unzulässigen Nutzung von Gemma aufgeführt.
Sie können die Funktion für eine bestimmte Aufgabe aus dem Bereich „Vision und Sprache“ optimieren:
- Die vortrainierten Modelle können für eine Vielzahl von Aufgaben im Bereich Bild- und Sprachverarbeitung optimiert werden, z. B. Bilduntertitelung, Untertitelung kurzer Videos, Beantwortung visueller Fragen, Textlesen, Objekterkennung und Objektsegmentierung.
- Die vorab trainierten Modelle können für bestimmte Bereiche optimiert werden, z. B. für die Beantwortung von Fragen zu Remote-Sensoren, visuellen Fragen von blinden Personen, wissenschaftlichen Fragen oder die Beschreibung von UI-Elementfunktionen.
- Die vortrainierten Modelle können für Aufgaben mit nicht textbasierten Ergebnissen wie Begrenzungsrahmen oder Segmentierungsmasken optimiert werden.
Forschung zu visueller Sprache:
- Die vortrainierten und optimierten Modelle können als Grundlage für Forscher dienen, um mit VLM-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Bereichs beizutragen.
Ethische Aspekte und Risiken
Die Entwicklung von Vision-Language-Modellen (VLMs) wirft mehrere ethische Fragen auf. Bei der Entwicklung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:
- Voreingenommenheit und Fairness
- VLMs, die mit großen Mengen an realen Bild-Text-Daten trainiert werden, können soziokulturelle Voreingenommenheiten widerspiegeln, die im Trainingsmaterial enthalten sind. Diese Modelle wurden sorgfältig geprüft. Die Vorverarbeitung der Eingabedaten und die nachfolgenden Bewertungen sind auf dieser Karte beschrieben.
- Fehlinformationen und Missbrauch
- VLMs können missbraucht werden, um falschen, irreführenden oder schädlichen Text zu generieren.
- Im Responsible Generative AI Toolkit finden Sie Richtlinien für die verantwortungsvolle Verwendung des Modells.
- Transparenz und Rechenschaftspflicht
- Auf dieser Modellkarte finden Sie Details zur Architektur, zu den Funktionen, zu den Einschränkungen und zu den Bewertungsverfahren der Modelle.
- Ein verantwortungsvoll entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die VLM-Technologie für Entwickler und Forscher im gesamten KI-System zugänglich gemacht wird.
Identifizierte Risiken und Risikominderungen:
- Verfestigung von Voreingenommenheiten: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle kontinuierliche Überwachung (mithilfe von Bewertungsmesswerten und manueller Überprüfung) durchzuführen und Methoden zur Beseitigung von Voreingenommenheiten zu untersuchen.
- Erstellung schädlicher Inhalte:Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwicklern wird empfohlen, mit Bedacht vorzugehen und geeignete Maßnahmen zur Sicherheit von Inhalten zu implementieren, die auf ihren spezifischen Produktrichtlinien und Anwendungsfällen basieren.
- Missbrauch zu böswilligen Zwecken:Technische Einschränkungen und Aufklärung von Entwicklern und Endnutzern können dazu beitragen, die böswillige Verwendung von LLMs zu verhindern. Es werden Informationsressourcen und Meldemechanismen für Nutzer bereitgestellt, mit denen sie Missbrauch melden können: Responsible Generative AI Toolkit. Unzulässige Verwendungen von Gemma-Modellen sind in der Richtlinie zur unzulässigen Nutzung von Gemma aufgeführt.
- Datenschutzverstöße:Die Modelle wurden mit Daten trainiert, aus denen bestimmte personenbezogene Daten und vertrauliche Daten entfernt wurden. Entwickler werden aufgefordert, Datenschutzbestimmungen mit datenschutzfreundlichen Verfahren einzuhalten.
Beschränkungen
- Die meisten Einschränkungen, die vom zugrunde liegenden Gemma-Modell übernommen wurden, gelten weiterhin:
- VLMs eignen sich besser für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder sehr komplexe Aufgaben können eine Herausforderung darstellen.
- Die natürliche Sprache ist von Natur aus komplex. VLMs haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildhafte Sprache zu verstehen.
- VLMs generieren Antworten basierend auf Informationen, die sie aus ihren Trainingsdatensätzen gelernt haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Sachinformationen generieren.
- VLMs basieren auf statistischen Mustern in Sprache und Bildern. Möglicherweise fehlt es ihnen in bestimmten Situationen an gesundem Menschenverstand.
- PaliGemma wurde in erster Linie als allgemeines vortrainiertes Modell entwickelt, das für spezielle Aufgaben optimiert werden kann. Daher kann die Leistung „out of the box“ oder „Zero-Shot“ hinter Modellen zurückbleiben, die speziell für den allgemeinen Gebrauch entwickelt wurden.
- PaliGemma ist kein Chatbot für Unterhaltungen mit mehreren Antworten. Es ist für eine einzelne Runde der Bild- und Texteingabe konzipiert.