Im Gemma Cookbook-Repository finden Sie Beispiele für die Generierung und Feinabstimmung. Weitere Informationen

Diese Seite wurde von der Cloud Translation API übersetzt.

PaliGemma-Modellkarte

Modellseite:PaliGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren:Google

Modellinformationen

Modellübersicht

Beschreibung

PaliGemma ist ein vielseitiges und schlankes VLM (Vision Language Model), das inspiriert ist von PaLI-3 und basiert auf offenen Komponenten wie das SigLIP-Visionsmodell und die Gemma Language Model an. Es werden sowohl Bild- als auch Textelemente als Eingabe und generiert Text als Ausgabe, wobei mehrere Sprachen unterstützt werden. Es ist die für branchenführende Feinabstimmungen bei einer breiten Palette von Aufgaben in der visuellen Sprache, z. B. Bild- und kurze Videountertitel, visuelle Fragen Antworten, Textlesen, Objekterkennung und Objektsegmentierung.

Modellarchitektur

PaliGemma ist die Zusammensetzung eines Transformers Decoder und ein Vision Transformer-Bild Encoder mit insgesamt 3 Milliarden Parametern. Der Textdecoder wird von Gemma-2B: Der Bild-Encoder ist Initialisiert ab SigLIP-So400m/14. PaliGemma wurde nach den PaLI-3-Rezepten trainiert.

Ein- und Ausgaben

Eingabe:Bild und Textstring, z. B. eine Aufforderung, das Bild als Bildunterschrift zu verwenden eine Frage.
Ausgabe: generierter Text als Reaktion auf die Eingabe, z. B. ein Untertitel von das Bild, eine Antwort auf eine Frage, eine Liste mit Objektbegrenzungsrahmen Koordinaten oder Segmentierungs-Codewörter.

Modelldaten

Datasets vorab trainieren

PaliGemma wurde mit der folgenden Mischung von Datasets vortrainiert:

WebLI:WebLI (Web Language Image) ist ein mehrsprachiges Bild-Text-Dataset auf Webniveau, das aus dem öffentlichen Web erstellt wurde. A breite Palette von WebLI-Splits genutzt, um vielseitige Modellfunktionen zu erwerben, wie visuelles semantisches Verständnis, Objektlokalisierung, visuell dargestelltes Textverständnis, Mehrsprachigkeit usw.
CC3M-35L:Ausgewählte englische Bild-Alt-Text-Paare von Webseiten (Sharma et Al., 2018). Wir haben die Google Cloud Translation API in die Sprache 34 weitere Sprachen.
VQ²A-CC3M-35L/VQG-CC3M-35L::Eine Untergruppe von VQ2A-CC3M (Changpinyo et al., 2022a) übersetzt. weitere 34 Sprachen wie bei CC3M-35L, mit der Google Cloud Translation API
OpenImages: Fragen und Antworten zu Erkennung und Objekterkennung (Piergiovanni et al. 2022), generiert von Regeln für das OpenImages-Dataset erstellen.
WIT:Bilder und Texte aus Wikipedia (Srinivasan et al., 2021).

Filtern nach Datenverantwortung

Die folgenden Filter werden auf WebLI angewendet, um PaliGemma zu trainieren auf saubere Daten:

Filterung pornografischer Bilder:Mit diesem Filter werden Bilder entfernt, die pornografischen Charakter.
Textsicherheitsfilter: Wir identifizieren und filtern Bilder, die gekoppelt sind, mit unsicherem Text. Unsicherer Text ist jeder Text, der sich auf Darstellungen des sexuellen Missbrauchs von Kindern, Pornografie, vulgäre oder anderweitig anstößig
Filterung nach unangemessenen Äußerungen in Texten:Wir verwenden außerdem Perspective API verwenden, um Bilder zu identifizieren und herauszufiltern, mit Text kombiniert, der beleidigend, obszön, hasserfüllt oder anderweitig unangemessen ist.
Filterung nach personenbezogenen Textdaten:Wir haben bestimmte personenbezogene Daten herausgefiltert. Informationen und andere sensible Daten mithilfe von Cloud Data Loss Prevention (DLP) API, um die die Privatsphäre von Einzelpersonen. Kennungen wie Sozialversicherungsnummern und andere Arten von vertraulichen Informationen wurden entfernt.
Weitere Methoden:Filtern nach der Qualität und Sicherheit von Inhalten in unseren Richtlinien und Praktiken entsprechen.

Informationen zur Implementierung

Hardware

PaliGemma wurde mit der neuesten Generation von Tensor Processing Unit trainiert (TPU)-Hardware (TPUv5e).

Software

Das Training erfolgte mit JAX, Flaxo TFDS und big_vision

Mit JAX können Forscher die neueste Hardware-Generation, einschließlich TPUs, um große Modelle schneller und effizienter zu trainieren.

TFDS wird für den Zugriff auf Datasets und Flax für die Modellarchitektur verwendet. Die PaliGemma-Abstimmungscode und Inferenzcode werden im big_vision veröffentlicht GitHub-Repository

Informationen zur Bewertung

Benchmarkergebnisse

Um die Übertragbarkeit von PaliGemma auf eine Vielzahl von akademische Aufgaben optimieren wir die vortrainierten Modelle für jede Aufgabe. Außerdem Trainieren Sie das Mix-Modell mit einer Mischung aus Übertragungsaufgaben. Wir melden Ergebnisse zu Lösungen, um einen Eindruck davon zu vermitteln, welche Aufgaben höhere Auflösung. Wichtig ist, dass keine dieser Aufgaben oder Datasets und die dazugehörigen Bilder werden explizit aus dem Vortrainingsdaten auf Webniveau.

Einzelne Aufgabe (Feinabstimmung für eine einzelne Aufgabe)

Benchmark (Zugaufteilung)	Messwert (aufgeteilt)	pt-224	pt-448	pt-896
Untertitel erstellen
COCO-Untertitel (Zug + Restwert)	CIDEr (Wert)	141,92	144,60
NoCaps (Bewertung von COCO-Untertiteln)	CIDEr (Wert)	121,72	123,58
COCO-35L (Zug)	CIDEr-Entwickler (en/avg-34/avg)	139,2 115,8 116,4	141,2 118,0 118,6
XM3600 (Bewertung von COCO-35L-Übertragung)	CIDEr-Entwickler (en/avg-34/avg)	78,1 41,3 42,4	80,0 41,9 42,9
TextCaps (Zug)	CIDEr (Wert)	127,48	153,94
SciCap (erster Satz, keine Unterfigur) (train+val)	CIDEr/BLEU-4 (Test)	162,25 0,192	181,49 0,211
Screen2words (train+dev)	CIDEr (Test)	117,57	119,59
Widget-Untertitel (Train + Dev)	CIDEr (Test)	136,07	148,36
Question Answering
VQAv2 (Zug + Validierung)	Genauigkeit (Testserver – Standardeinstellung)	83,19	85,64
MMVP (Bewertung von VQAv2-Übertragung)	Gekoppelte Genauigkeit	47,33	45,33
POPE (Bewertung von VQAv2-Übertragung)	Genauigkeit (zufällig/beliebt/kritisch)	87,80 85,87 84,27	88,23 86,77 85,90
OKVQA (Zug)	Genauigkeit (val)	63,54	63,15
A-OKVQA (MC) (train+val)	Genauigkeit (Testserver)	76,37	76,90
A-OKVQA (DA) (train+val)	Genauigkeit (Testserver)	61,85	63,22
GQA (train_balanced+val_balanced)	Genauigkeit (ausgeglichen für Testdev)	65,61	67,03
xGQA (Bewertung von GQA-Übertragung)	Durchschnittliche Genauigkeit (bn, de, en, id, ko, pt, ru, zh)	58,37	59,07
NLVR2 (Zug + Entwicklung)	Genauigkeit (Test)	90,02	88,93
MaRVL (Bewertung von NLVR2-Übertragung)	Durchschnittliche Genauigkeit (Test) (id, sw, ta, tr, zh)	80,57	76,78
AI2D (Zug)	Genauigkeit (Test)	72,12	73,28
ScienceQA (Img-Teilmenge, kein CoT) (train+val)	Genauigkeit (Test)	95,39	95,93
RSVQA-LR (nicht numerisch) (train+val)	Durchschnittliche Genauigkeit (Test)	92,65	93,11
RSVQA-HR (nicht numerisch) (train+val)	Durchschnittliche Genauigkeit (Test/Test2)	92,61 90,58	92,79 90,54
ChartQA (Human+Auge)x(Zug+Wert)	Durchschnittliche Genauigkeit (abgeglichene Genauigkeit) (test_ human, test_aug)	57,08	71,36
VizWiz VQA (Zug + Wert)	Genauigkeit (Testserver – Standardeinstellung)	73,7	75,52
TallyQA (Zug)	Genauigkeit (test_simple/test_complex)	81,72 69,56	84,86 72,27
OCR-VQA (train+val)	Genauigkeit (Test)	72,32	74,61	74,93
TextVQA (train+val)	Genauigkeit (Testserver – Standardeinstellung)	55,47	73,15	76,48
DocVQA (Zug + Wert)	ANLS (Test server)	43,74	78,02	84,77
Infografik VQA (Zug + Wert)	ANLS (Test server)	28,46	40,47	47,75
SceneText VQA (Train + val)	ANLS (Test server)	63,29	81,82	84,40
Segmentierung
RefCOCO (Kombination von refcoco, refcoco+, refcocog ohne Wert- und Testbilder)	MioU (Validierung) refcoco/refcoco+/refcocog	73,40 68,32 67,65	75,57 69,76 70,17	76,94 72,18 72,22
Videoaufgaben (Untertitel/QA)
MSR-VTT (Untertitelung)	CIDEr (Test)	70,54
MSR-VTT (QA)	Genauigkeit (Test)	50,09
ActivityNet (Untertitelung)	CIDEr (Test)	34,62
ActivityNet (QA)	Genauigkeit (Test)	50,78
VATEX (Untertitelung)	CIDEr (Test)	79,73
MSVD (QA)	Genauigkeit (Test)	60,22

Modell mischen (Feinabstimmung der Mischung von Übertragungsaufgaben)

Benchmark	Messwert (aufgeteilt)	mix-224	mix-448
MMVP	Gekoppelte Genauigkeit	46,00	45,33
POPE	Genauigkeit (zufällig/beliebt/kritisch)	88,00 86,63 85,67	89,37 88,40 87,47

Benchmark

Messwert (aufgeteilt)

mix-224

mix-448

MMVP

Gekoppelte Genauigkeit

46,00

45,33

POPE

Genauigkeit (zufällig/beliebt/kritisch)

88,00

86,63

85,67

89,37

88,40

87,47

Ethik und Sicherheit

Bewertungsansatz

Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und internes Red Teaming Tests relevanter Inhaltsrichtlinien. Das Red-Team-Einsatz wurde von einer Reihe von Teams mit unterschiedlichen Zielen und Metriken für die menschliche Bewertung. Diese wurden die Modelle anhand verschiedener Kategorien bewertet, Ethik und Sicherheit, einschließlich:

Manuelle Überprüfung von Aufforderungen zum Schutz von Kindern, zur Sicherheit von Inhalten und Repräsentationsschäden. Gemma-Modell ansehen Karte für mehr Details zum Bewertungsansatz, aber mit Bilduntertiteln und für die Beantwortung von Fragen.
Benchmark-Bewertung von Bild zu Text: Benchmark mit relevanten akademischen Aspekten wie FairFace Dataset (Karkkainen et al., 2021).

Bewertungsergebnisse

Die Ergebnisse der menschlichen Bewertung von Ethik- und Sicherheitsbewertungen liegen Zulässige Grenzwerte zur Erfüllung der internen Richtlinien wie Schutz von Kindern, inhaltliche Sicherheit und
Neben soliden internen Auswertungen nutzen wir auch die Perspective API. (Grenzwert 0, 8) zum Messen von unangemessenen Äußerungen, vulgärer Sprache und anderen potenziellen Problemen Probleme in den generierten Untertiteln für Bilder, die von FairFace stammen Dataset. Wir geben die in den Untergruppen beobachteten Maximal- und Medianwerte an. für alle wahrgenommenen Geschlechts-, ethnischen und Altersattribute.

Messwert	Empfundenes Geschlecht		Ethnische Herkunft		Altersgruppe
	Maximum	Medianwert	Maximum	Medianwert	Maximum	Medianwert
Toxizität	0,04 %	0,03 %	0,08%	0,00 %	0,09 %	0,00 %
Identitätsangriff	0,00 %	0,00 %	0,00 %	0,00 %	0,00 %	0,00 %
Beleidigung	0,06 %	0,04 %	0,09 %	0,07 %	0,16 %	0,00 %
Bedrohung	0,06 %	0,05 %	0,14 %	0,05 %	0,17%	0,00 %
Vulgäre Sprache	0,00 %	0,00 %	0,00 %	0,00 %	0,00 %	0,00 %

Nutzung und Einschränkungen

Verwendungszweck

Open Vision Language Models (VLMs) bieten ein breites Spektrum an Anwendungen in Branchen und Domänen zu verstehen. Die folgende Liste möglicher Verwendungszwecke umfangreich. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen, die die Ersteller des Modells als Teil des Modells in Betracht gezogen haben. Schulung und Entwicklung.

Passen Sie eine bestimmte Aufgabe in der visuellen Sprache an:

Die vortrainierten Modelle können für eine Vielzahl von Vision-Sprachen angepasst werden. Aufgaben wie Bilduntertitelung, kurze Videountertitel, visuelle Frage Antworten, Textlesen, Objekterkennung und Objektsegmentierung.
Die vortrainierten Modelle lassen sich für bestimmte Domänen wie Remote- Antworten auf Wahrnehmungsfragen, visuelle Fragen von Blinden, Antworten auf wissenschaftliche Fragen, beschreiben Sie die Funktionen der UI-Elemente.
Die vortrainierten Modelle lassen sich für Aufgaben mit nicht textbasierten Ausgaben optimieren wie Begrenzungsrahmen oder Segmentierungsmasken.

Forschung zur visuellen Sprache:

Die vortrainierten Modelle und die abgestimmten Modelle können als Grundlage für Forschenden, um mit VLM-Techniken zu experimentieren, Algorithmen zu entwickeln und zum Fortschritt auf diesem Gebiet beitragen.

Ethische Überlegungen und Risiken

Die Entwicklung von Vision Language Models (VLMs) wirft mehrere ethische Bedenken. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

Voreingenommenheit und Fairness
- VLMs, die mit umfangreichen, realen Bildtextdaten trainiert wurden, soziokulturelle Vorurteile, die in das Schulungsmaterial eingebettet sind. Diese Modelle sorgfältig geprüft, die Vorverarbeitung der Eingabedaten, nachteilige Bewertungen, die auf dieser Karte aufgeführt sind.
Fehlinformationen und Missbrauch
- VLMs können dazu missbraucht werden, falschen, irreführenden oder schädlich ist.
- Es werden Richtlinien für eine verantwortungsvolle Nutzung des Modells bereitgestellt, siehe Toolkit für Responsible Generative AI
Transparenz und Rechenschaftspflicht
- Auf dieser Modellkarte sind Details zu den Architektur, Fähigkeiten, Grenzen und Bewertungsprozesse an.
- Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, die VLM-Technologie für Entwickelnde und im gesamten KI-Ökosystem.

Identifizierte Risiken und Minderungen:

Weiterbildung von Voreingenommenheiten:Es wird empfohlen, eine kontinuierliche Überwachung durchzuführen. (anhand von Bewertungsmesswerten, manueller Überprüfung) und dem Erkunden von während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle.
Generierung schädlicher Inhalte:Mechanismen und Richtlinien für Inhalte Sicherheit von entscheidender Bedeutung. Entwickler sollten Vorsicht walten lassen und angemessene Sicherheitsvorkehrungen für Inhalte auf der Basis ihrer spezifischen Produktrichtlinien und Anwendungsanwendungsfällen.
Missbrauch für böswillige Zwecke: Technische Einschränkungen und Entwickler- und Endnutzer-Aufklärung können dazu beitragen, schädliche LLM-Anwendungen abzumildern. Bildungsressourcen und Meldemechanismen, mit denen Nutzer Missbrauch melden können, sind bereitgestellt: siehe Responsible Generative AI Toolkit. Unzulässige Verwendung von Gemma Modelle werden in der Gemma-Richtlinie zur unzulässigen Nutzung beschrieben.
Datenschutzverstöße:Die Modelle wurden mit Daten trainiert, die gefiltert wurden, um sie zu entfernen. bestimmte personenbezogene Daten und sensible Daten. Entwickler werden ermutigt, um Datenschutzbestimmungen mit datenschutzfreundlichen Methoden einzuhalten.

Beschränkungen

Die meisten Einschränkungen, die vom zugrunde liegenden Gemma-Modell übernommen wurden, gelten weiterhin:
- VLMs sind besser bei Aufgaben, die sich klar und deutlich beschreiben lassen Anleitung. Offene oder hochkomplexe Aufgaben können eine Herausforderung sein.
- Natürliche Sprache ist von Natur aus komplex. VLMs haben möglicherweise Schwierigkeiten, feine Nuancen, Sarkasmus oder Bildsprache.
- VLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets, die aber keine Wissensdatenbanken sind. Sie generieren falsche oder veraltete Sachbeschreibungen.
- VLMs basieren auf statistischen Mustern in Sprache und Bildern. Sie könnten Sie sind nicht in der Lage, in bestimmten Situationen gesunde Schlussfolgerungen anzuwenden.
PaliGemma wurde in erster Linie als allgemeine vortrainierte für die Feinabstimmung spezialisierter Aufgaben. Daher ist es „out of the box“, oder Zero-Shot hinter Modellen zurück, die speziell für
PaliGemma ist kein Multi-Turn-Chatbot. Sie ist für eine einzelne Runde Bild- und Texteingabe.