Modellseite: ShieldGemma
Ressourcen und technische Dokumentation:
Nutzungsbedingungen: Nutzungsbedingungen
Autoren: Google
Modellinformationen
ShieldGemma 2 ist ein Modell, das anhand des IT-Checkpoints 4B von Gemma 3 für die Sicherheitsklassifizierung von Bildern in wichtigen Kategorien trainiert wurde. Es nimmt Bilder auf und gibt Sicherheitslabels gemäß den Richtlinien aus.
Beschreibung
ShieldGemma 2 basiert auf Gemma 3 und ist ein Modell mit 4 Milliarden (4 Mrd.) Parametern, das die Sicherheit sowohl synthetischer als auch natürlicher Bilder anhand wichtiger Kategorien prüft, um Ihnen beim Erstellen robuster Datensätze und Modelle zu helfen. Mit diesem neuen Modell der Gemma-Familie können Forscher und Entwickler das Risiko schädlicher Inhalte für ihre Anwendungen mit generativer KI bei wichtigen Arten von Schäden minimieren.
Wir empfehlen, ShieldGemma 2 als Eingabefilter für Modelle der visuellen Sprache oder als Ausgabefilter von Systemen zur Bildgenerierung zu verwenden. Um ein robustes Modell für die Bildsicherheit zu trainieren, haben wir Trainingsdatensätze mit natürlichen und synthetischen Bildern zusammengestellt und Gemma 3 anhand von Anleitungen optimiert, um eine hohe Leistung zu erzielen. Wir haben unsere Sicherheitsrichtlinien mit verschiedenen Benchmarks verglichen und veröffentlichen einen technischen Bericht, der Benchmarks von Drittanbietern enthält.
Eingaben und Ausgaben
- Eingabe:Bild und Promptanleitung mit Richtliniendefinition.
- Ausgabe:Wahrscheinlichkeit für „Ja“- oder „Nein“-Tokens. Je höher die Bewertung für das Token „Ja“, desto höher ist die Wahrscheinlichkeit, dass das Modell zuversichtlich ist, dass die Inhalte gegen die entsprechende Richtlinie verstoßen. Für das „Nein“-Token gilt das Gegenteil. Beide Bewertungen sind verfügbar, um Klassifizierungsmesswerte und ‑kalibrierung zu ermöglichen.
Richtlinien für Prompts
Hier ist die Anleitung für den Prompt [Prompt Instruction]
:
You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.
<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>
Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.
Anwendungsfall: Bildklassifizierung
Art des Schadens | Richtlinie |
---|---|
Sexuell explizite Inhalte | „Keine sexuell expliziten Inhalte“: Das Bild darf keine Inhalte enthalten, die explizite oder drastische sexuelle Handlungen zeigen (z. B. Pornografie, erotische Nacktheit, Darstellungen von Vergewaltigung oder sexuellem Missbrauch). |
Gefährliche Inhalte | „Keine gefährlichen Inhalte“: Das Bild darf keine Inhalte enthalten, die Aktivitäten erleichtern oder fördern, die im wirklichen Leben zu Schäden und Verletzungen führen könnten (z.B. Herstellung von Schusswaffen und Sprengkörpern, Werbung für Terrorismus, Anleitungen zum Suizid). |
Inhalte, die Gewalt darstellen | „Keine Gewaltdarstellungen/grausamen Inhalte“: Das Bild darf keine Inhalte enthalten, die schockierend, aufsehenerregend oder grundlos gewalttätig sind (z.B. übermäßiges Blut und drastische Gewaltdarstellungen, grundlose Gewalt gegen Tiere, extreme Verletzungen oder den Moment des Todes). |
Zitation
@article{shieldgemma2,
title={ShieldGemma 2},
url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
author={ShieldGemma Team},
year={2025}
}
Modelldaten
Daten, die für das Modelltraining verwendet wurden, und wie die Daten verarbeitet wurden.
Trainings-Dataset
Unser Trainingsdatensatz besteht sowohl aus natürlichen als auch aus synthetischen Bildern. Bei natürlichen Bildern wird eine Teilmenge der Bilder aus dem WebLI-Datensatz (Web Language and Image) ausgewählt, die für die Sicherheitsaufgaben relevant sind. Für synthetische Bilder verwenden wir eine interne Pipeline zur Datengenerierung, um kontrollierte Prompts und entsprechende Bilder zu generieren, die Vielfalt und Schwere der Bilder ausbalancieren. Für diese Studie wurden die Arten von Schaden auf gefährliche, sexuell explizite und gewaltverherrlichende Inhalte beschränkt und nur auf Englisch. Zusätzliche Themen und Unterthemen wurden mithilfe einer Taxonomie strukturiert, die den jeweiligen Richtlinien entspricht, sowie einer Reihe von demografischen, kontextbezogenen und regionalen Aspekten.
Datenvorverarbeitung
Im Folgenden finden Sie die wichtigsten Methoden zur Datenbereinigung und -filterung, die auf die Trainingsdaten angewendet wurden:
Implementierungsinformationen
Hardware
ShieldGemma 2 wurde mit der neuesten Generation der Tensor Processing Unit (TPU)-Hardware (TPUv5e) trainiert. Weitere Informationen finden Sie auf der Modellkarte für Gemma 3.
Software
Das Training wurde mit JAX und ML Pathways durchgeführt. Weitere Informationen finden Sie auf der Gemma 3-Modellkarte.
Bewertung
Benchmark-Ergebnisse
ShieldGemma 2 4B wurde anhand interner und externer Datensätze bewertet. Unser interner Datensatz wird synthetisch über unsere interne Pipeline zur Bilddatenkuratierung generiert. Diese Pipeline umfasst wichtige Schritte wie die Problemdefinition, die Erstellung der Sicherheitstaxonomie, die Erstellung von Bildabfragen, die Bildgenerierung, die Attributanalyse und die Validierung der Labelqualität. Für jede Richtlinie zu schädlichen Inhalten gibt es etwa 500 Beispiele. Die positiven Anteile betragen 39%, 67 % und 32% für sexuelle, gefährliche und gewaltverherrlichende Inhalte. Außerdem veröffentlichen wir einen technischen Bericht mit Bewertungen anhand externer Datasets.
Ergebnisse der internen Benchmark-Bewertung
Modell | sexuell explizit | Gefährliche Inhalte | Gewaltdarstellungen |
---|---|---|---|
LlavaGuard 7B | 47,6/93,1/63,0 | 67,8/47,2/55,7 | 36,8/100,0/53,8 |
GPT-4o mini | 68,3/97,7/80,3 | 84,4/99,0/91,0 | 40,2/100,0/57,3 |
Gemma-3-4B-IT | 77,7/87,9/82,5 | 75,9/94,5/84,2 | 78,2/82,2/80,1 |
ShieldGemma-2-Image-4B | 87,6/89,7/88,6 | 95,6/91,9/93,7 | 80,3/90,4/85,0 |
Ethik und Sicherheit
Bewertungsansatz
Obwohl die ShieldGemma-Modelle generative Modelle sind, sind sie für den Bewertungsmodus konzipiert, um die Wahrscheinlichkeit vorherzusagen, dass das nächste Token Yes
oder No
ist. Daher lag der Schwerpunkt der Sicherheitsbewertung hauptsächlich auf der Ausgabe effektiver Labels zur Bildsicherheit.
Bewertungsergebnisse
Diese Modelle wurden auf ethische, sicherheitsrelevante und faire Aspekte geprüft und erfüllten die internen Richtlinien. Im Vergleich zu Benchmarks wurden die Bewertungs-Datasets iteriert und an verschiedene Taxonomien angepasst. Die Labels für die Bildsicherheit wurden ebenfalls manuell gekennzeichnet und auf Anwendungsfälle geprüft, die dem Modell entgangen sind. So konnten wir die Bewertungsrunden verbessern.
Nutzung und Einschränkungen
Diese Modelle haben bestimmte Einschränkungen, die Nutzer beachten sollten.
Verwendungszweck
ShieldGemma 2 ist als Moderator für sichere Inhalte gedacht, entweder für Eingaben von Nutzern, Modellausgaben oder beides. Diese Modelle sind Teil des Responsible Generative AI Toolkit, einer Reihe von Empfehlungen, Tools, Datasets und Modellen, die die Sicherheit von KI-Anwendungen im Rahmen des Gemma-Ökosystems verbessern sollen.
Beschränkungen
Es gelten alle üblichen Einschränkungen für Large Language Models. Weitere Informationen finden Sie auf der Modellkarte für Gemma 3. Außerdem gibt es nur wenige Benchmarks, mit denen sich die Moderation von Inhalten bewerten lässt. Daher sind die Trainings- und Bewertungsdaten möglicherweise nicht repräsentativ für reale Szenarien.
ShieldGemma 2 ist außerdem sehr empfindlich gegenüber der spezifischen Beschreibung der Sicherheitsprinzipien durch den Nutzer und kann unter Bedingungen, die ein gutes Verständnis für Mehrdeutigkeit und Nuancen der Sprache erfordern, unvorhersehbare Ergebnisse liefern.
Wie bei anderen Modellen, die Teil des Gemma-Systems sind, unterliegt ShieldGemma den Google-Richtlinien zur unzulässigen Nutzung.
Ethische Aspekte und Risiken
Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Fragen auf. Bei der Entwicklung dieser Modelle haben wir mehrere Aspekte sorgfältig berücksichtigt.
Weitere Informationen finden Sie auf der Gemma 3-Modellkarte.
Vorteile
Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe hochleistungsfähige Open-Source-Implementierungen von Large Language Models, die von Grund auf für die verantwortungsbewusste Entwicklung von KI entwickelt wurden.
Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben diese Modelle eine bessere Leistung als andere Open-Source-Modelle mit vergleichbarer Größe gezeigt.