ShieldGemma-Modellkarte

Modellseite: ShieldGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google

Modellinformationen

ShieldGemma 2 ist ein Modell, das anhand des IT-Checkpoints 4B von Gemma 3 für die Sicherheitsklassifizierung von Bildern in wichtigen Kategorien trainiert wurde. Es nimmt Bilder auf und gibt Sicherheitslabels gemäß den Richtlinien aus.

Beschreibung

ShieldGemma 2 basiert auf Gemma 3 und ist ein Modell mit 4 Milliarden (4 Mrd.) Parametern, das die Sicherheit sowohl synthetischer als auch natürlicher Bilder anhand wichtiger Kategorien prüft, um Ihnen beim Erstellen robuster Datensätze und Modelle zu helfen. Mit diesem neuen Modell der Gemma-Familie können Forscher und Entwickler das Risiko schädlicher Inhalte für ihre Anwendungen mit generativer KI bei wichtigen Arten von Schäden minimieren.

Wir empfehlen, ShieldGemma 2 als Eingabefilter für Modelle der visuellen Sprache oder als Ausgabefilter von Systemen zur Bildgenerierung zu verwenden. Um ein robustes Modell für die Bildsicherheit zu trainieren, haben wir Trainingsdatensätze mit natürlichen und synthetischen Bildern zusammengestellt und Gemma 3 anhand von Anleitungen optimiert, um eine hohe Leistung zu erzielen. Wir haben unsere Sicherheitsrichtlinien mit verschiedenen Benchmarks verglichen und veröffentlichen einen technischen Bericht, der Benchmarks von Drittanbietern enthält.

Eingaben und Ausgaben

  • Eingabe:Bild und Promptanleitung mit Richtliniendefinition.
  • Ausgabe:Wahrscheinlichkeit für „Ja“- oder „Nein“-Tokens. Je höher die Bewertung für das Token „Ja“, desto höher ist die Wahrscheinlichkeit, dass das Modell zuversichtlich ist, dass die Inhalte gegen die entsprechende Richtlinie verstoßen. Für das „Nein“-Token gilt das Gegenteil. Beide Bewertungen sind verfügbar, um Klassifizierungsmesswerte und ‑kalibrierung zu ermöglichen.

Richtlinien für Prompts

Hier ist die Anleitung für den Prompt [Prompt Instruction]:

You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.

<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>

Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.

Anwendungsfall: Bildklassifizierung

Art des Schadens Richtlinie
Sexuell explizite Inhalte „Keine sexuell expliziten Inhalte“: Das Bild darf keine Inhalte enthalten, die explizite oder drastische sexuelle Handlungen zeigen (z. B. Pornografie, erotische Nacktheit, Darstellungen von Vergewaltigung oder sexuellem Missbrauch).
Gefährliche Inhalte „Keine gefährlichen Inhalte“: Das Bild darf keine Inhalte enthalten, die Aktivitäten erleichtern oder fördern, die im wirklichen Leben zu Schäden und Verletzungen führen könnten (z.B. Herstellung von Schusswaffen und Sprengkörpern, Werbung für Terrorismus, Anleitungen zum Suizid).
Inhalte, die Gewalt darstellen „Keine Gewaltdarstellungen/grausamen Inhalte“: Das Bild darf keine Inhalte enthalten, die schockierend, aufsehenerregend oder grundlos gewalttätig sind (z.B. übermäßiges Blut und drastische Gewaltdarstellungen, grundlose Gewalt gegen Tiere, extreme Verletzungen oder den Moment des Todes).

Zitation

@article{shieldgemma2,
    title={ShieldGemma 2},
    url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
    author={ShieldGemma Team},
    year={2025}
}

Modelldaten

Daten, die für das Modelltraining verwendet wurden, und wie die Daten verarbeitet wurden.

Trainings-Dataset

Unser Trainingsdatensatz besteht sowohl aus natürlichen als auch aus synthetischen Bildern. Bei natürlichen Bildern wird eine Teilmenge der Bilder aus dem WebLI-Datensatz (Web Language and Image) ausgewählt, die für die Sicherheitsaufgaben relevant sind. Für synthetische Bilder verwenden wir eine interne Pipeline zur Datengenerierung, um kontrollierte Prompts und entsprechende Bilder zu generieren, die Vielfalt und Schwere der Bilder ausbalancieren. Für diese Studie wurden die Arten von Schaden auf gefährliche, sexuell explizite und gewaltverherrlichende Inhalte beschränkt und nur auf Englisch. Zusätzliche Themen und Unterthemen wurden mithilfe einer Taxonomie strukturiert, die den jeweiligen Richtlinien entspricht, sowie einer Reihe von demografischen, kontextbezogenen und regionalen Aspekten.

Datenvorverarbeitung

Im Folgenden finden Sie die wichtigsten Methoden zur Datenbereinigung und -filterung, die auf die Trainingsdaten angewendet wurden:

Implementierungsinformationen

Hardware

ShieldGemma 2 wurde mit der neuesten Generation der Tensor Processing Unit (TPU)-Hardware (TPUv5e) trainiert. Weitere Informationen finden Sie auf der Modellkarte für Gemma 3.

Software

Das Training wurde mit JAX und ML Pathways durchgeführt. Weitere Informationen finden Sie auf der Gemma 3-Modellkarte.

Bewertung

Benchmark-Ergebnisse

ShieldGemma 2 4B wurde anhand interner und externer Datensätze bewertet. Unser interner Datensatz wird synthetisch über unsere interne Pipeline zur Bilddatenkuratierung generiert. Diese Pipeline umfasst wichtige Schritte wie die Problemdefinition, die Erstellung der Sicherheitstaxonomie, die Erstellung von Bildabfragen, die Bildgenerierung, die Attributanalyse und die Validierung der Labelqualität. Für jede Richtlinie zu schädlichen Inhalten gibt es etwa 500 Beispiele. Die positiven Anteile betragen 39%, 67 % und 32% für sexuelle, gefährliche und gewaltverherrlichende Inhalte. Außerdem veröffentlichen wir einen technischen Bericht mit Bewertungen anhand externer Datasets.

Ergebnisse der internen Benchmark-Bewertung

Modell sexuell explizit Gefährliche Inhalte Gewaltdarstellungen
LlavaGuard 7B 47,6/93,1/63,0 67,8/47,2/55,7 36,8/100,0/53,8
GPT-4o mini 68,3/97,7/80,3 84,4/99,0/91,0 40,2/100,0/57,3
Gemma-3-4B-IT 77,7/87,9/82,5 75,9/94,5/84,2 78,2/82,2/80,1
ShieldGemma-2-Image-4B 87,6/89,7/88,6 95,6/91,9/93,7 80,3/90,4/85,0

Ethik und Sicherheit

Bewertungsansatz

Obwohl die ShieldGemma-Modelle generative Modelle sind, sind sie für den Bewertungsmodus konzipiert, um die Wahrscheinlichkeit vorherzusagen, dass das nächste Token Yes oder No ist. Daher lag der Schwerpunkt der Sicherheitsbewertung hauptsächlich auf der Ausgabe effektiver Labels zur Bildsicherheit.

Bewertungsergebnisse

Diese Modelle wurden auf ethische, sicherheitsrelevante und faire Aspekte geprüft und erfüllten die internen Richtlinien. Im Vergleich zu Benchmarks wurden die Bewertungs-Datasets iteriert und an verschiedene Taxonomien angepasst. Die Labels für die Bildsicherheit wurden ebenfalls manuell gekennzeichnet und auf Anwendungsfälle geprüft, die dem Modell entgangen sind. So konnten wir die Bewertungsrunden verbessern.

Nutzung und Einschränkungen

Diese Modelle haben bestimmte Einschränkungen, die Nutzer beachten sollten.

Verwendungszweck

ShieldGemma 2 ist als Moderator für sichere Inhalte gedacht, entweder für Eingaben von Nutzern, Modellausgaben oder beides. Diese Modelle sind Teil des Responsible Generative AI Toolkit, einer Reihe von Empfehlungen, Tools, Datasets und Modellen, die die Sicherheit von KI-Anwendungen im Rahmen des Gemma-Ökosystems verbessern sollen.

Beschränkungen

Es gelten alle üblichen Einschränkungen für Large Language Models. Weitere Informationen finden Sie auf der Modellkarte für Gemma 3. Außerdem gibt es nur wenige Benchmarks, mit denen sich die Moderation von Inhalten bewerten lässt. Daher sind die Trainings- und Bewertungsdaten möglicherweise nicht repräsentativ für reale Szenarien.

ShieldGemma 2 ist außerdem sehr empfindlich gegenüber der spezifischen Beschreibung der Sicherheitsprinzipien durch den Nutzer und kann unter Bedingungen, die ein gutes Verständnis für Mehrdeutigkeit und Nuancen der Sprache erfordern, unvorhersehbare Ergebnisse liefern.

Wie bei anderen Modellen, die Teil des Gemma-Systems sind, unterliegt ShieldGemma den Google-Richtlinien zur unzulässigen Nutzung.

Ethische Aspekte und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Fragen auf. Bei der Entwicklung dieser Modelle haben wir mehrere Aspekte sorgfältig berücksichtigt.

Weitere Informationen finden Sie auf der Gemma 3-Modellkarte.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe hochleistungsfähige Open-Source-Implementierungen von Large Language Models, die von Grund auf für die verantwortungsbewusste Entwicklung von KI entwickelt wurden.

Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben diese Modelle eine bessere Leistung als andere Open-Source-Modelle mit vergleichbarer Größe gezeigt.