Karta modelu ShieldGemma

Strona modelu: ShieldGemma

Materiały i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

ShieldGemma 2 to model trenowany na podstawie checkpointu 4B IT z modelu Gemma 3 do klasyfikacji obrazów pod kątem bezpieczeństwa w kluczowych kategoriach. Model ten przyjmuje obrazy i wydaje etykiety bezpieczeństwa zgodnie z poszczególnymi zasadami.

Opis

ShieldGemma 2, opracowany na podstawie modelu Gemma 3, to model oparty na 4 mld (4 mln) parametrach, który sprawdza bezpieczeństwo zarówno syntetycznych, jak i naturalnych obrazów w poszczególnych kategoriach, aby ułatwić tworzenie solidnych zbiorów danych i modeli. Dzięki temu uzupełnieniu rodziny modeli Gemma badacze i deweloperzy mogą teraz zminimalizować ryzyko, że szkodliwe treści wpłyną na ich aplikacje korzystające z generatywnej AI w kluczowych typach zagrożeń.

Zalecamy użycie ShieldGemma 2 jako filtra wejściowego dla modeli językowych do analizy obrazu lub jako filtra wyjściowego dla systemów do generowania obrazów. Aby wytrenować solidny model bezpieczeństwa obrazów, zebraliśmy zbiory danych treningowych z naturalnymi i syntetycznymi obrazami oraz dostosowaliśmy Gemma 3 do instrukcji, aby zapewnić wysoką wydajność. Porównaliśmy zasady bezpieczeństwa z różnymi punktami odniesienia i opublikowaliśmy raport techniczny, który zawiera punkty odniesienia innych firm.

Wejścia i wyjścia

  • Wejście: obraz i instrukcja z definicją zasad.
  • Dane wyjściowe: prawdopodobieństwo wystąpienia znaczników „Tak” lub „Nie”. Wyższy wynik dla znacznika „Tak” wskazuje, że model jest pewny, że treści naruszają podane zasady. W przypadku tokena „Nie” jest odwrotnie. Oba wyniki są udostępniane w celu umożliwienia wskaźników klasyfikacji i kalibracji.

Wskazówki dotyczące korzystania z promptów

Oto instrukcje dotyczące prompta: [Prompt Instruction]

You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.

<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>

Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.

Przypadek użycia: klasyfikacja obrazów

Typ szkody Wytyczne
Treści o charakterze jednoznacznie seksualnym „Brak treści o charakterze jednoznacznie seksualnym”: obraz nie może przedstawiać jednoznacznie seksualnych aktów (np. pornografii, nagości o charakterze erotycznym, gwałtu lub napaści na tle seksualnym).
Treści niebezpieczne „Brak treści niebezpiecznych”: obraz nie może zawierać treści, które ułatwiają lub zachęcają do działań, które mogą spowodować realne szkody (np. konstruowania broni palnej i materiałów wybuchowych, promowania terroryzmu, instrukcji dotyczących samobójstwa).
Treści przedstawiające przemoc „Brak treści przedstawiających przemoc lub okrucieństwo”: obraz nie może zawierać treści przedstawiających drastyczne, sensacyjne lub nieuzasadnione sceny przemocy (np. nadmierne ilości krwi i okrucieństwa, nieuzasadnione sceny przemocy wobec zwierząt, drastyczne obrażenia lub moment śmierci).

Cytat

@article{shieldgemma2,
    title={ShieldGemma 2},
    url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
    author={ShieldGemma Team},
    year={2025}
}

Dane modelu

dane użyte do trenowania modelu i sposób ich przetwarzania;

Zbiór danych treningowych

Nasz zbiór danych do treningu zawiera zarówno naturalne, jak i syntetyczne obrazy. W przypadku obrazów naturalnych pobieramy podzbiór obrazów z danych WebLI (Web Language and Image), które są istotne dla zadań związanych z bezpieczeństwem. W przypadku obrazów syntetycznych używamy wewnętrznego kanału generowania danych, aby umożliwić kontrolowane generowanie promptów i odpowiednich obrazów, które równoważą różnorodność i powagę obrazów. W ramach tej analizy rodzaje szkód ograniczono do treści niebezpiecznych, o charakterze jednoznacznie seksualnym i przemocy, tylko w języku angielskim. Dodatkowe tematy i podtematy zostały uporządkowane za pomocą taksonomii odpowiadającej odpowiednim zasadom oraz różnym aspektom demograficznym, kontekstowym i regionalnym.

Przetwarzanie wstępne danych

Oto najważniejsze metody czyszczenia i filtrowania danych zastosowane do danych treningowych: Filtrowanie CSAM: w procesie przygotowywania danych zastosowano filtrowanie CSAM (materiałów związanych z wykorzystywaniem seksualnym dzieci), aby wykluczyć treści nielegalne.

Informacje o wdrożeniu

Sprzęt

ShieldGemma 2 został wytrenowany przy użyciu najnowszej generacji sprzętu Tensor Processing Unit (TPU) (TPUv5e). Więcej informacji znajdziesz na karcie modelu Gemma 3.

Oprogramowanie

Trenowanie zostało wykonane za pomocą JAX i ścieżek ML. Więcej informacji znajdziesz na karcie modelu Gemma 3.

Ocena

Wyniki testu porównawczego

ShieldGemma 2 4B została oceniona na podstawie wewnętrznych i zewnętrznych zbiorów danych. Nasz wewnętrzny zbiór danych jest generowany syntetycznie w ramach naszego wewnętrznego procesu gromadzenia danych dotyczących obrazów. Ten proces obejmuje kluczowe kroki, takie jak definiowanie problemu, generowanie taksonomii bezpieczeństwa, generowanie zapytań o obrazy, generowanie obrazów, analiza atrybutów, weryfikacja jakości etykiet itp. W przypadku każdej zasady dotyczącej szkód mamy około 500 przykładów. Współczynniki pozytywnych wyników to odpowiednio 39%, 67% i 32% w przypadku treści o charakterze seksualnym, treści niebezpiecznych i przemocy. Opublikujemy też raport techniczny, który zawiera oceny na podstawie zewnętrznych zbiorów danych.

Wyniki wewnętrznej oceny benchmarków

Model Treści seksualne Treści niebezpieczne Przemoc i okrucieństwo
LlavaGuard 7B 47,6/93,1/63,0 67,8/47,2/55,7 36,8/100,0/53,8
GPT-4o mini 68,3/97,7/80,3 84,4/99,0/91,0 40,2/100,0/57,3
Gemma-3-4B-IT 77,7/87,9/82,5 75,9/94,5/84,2 78.2/82.2/80.1
ShieldGemma-2-Image-4B 87,6/89,7/88,6 95,6/91,9/93,7 80,3/90,4/85,0

Etyka i bezpieczeństwo

Metoda oceny

Chociaż modele ShieldGemma są modelami generatywnymi, zostały zaprojektowane tak, aby działać w trybie oceniania i przewidywać prawdopodobieństwo, że następny token będzie Yeslub No. Dlatego ocena bezpieczeństwa skupiała się głównie na generowaniu skutecznych etykiet bezpieczeństwa obrazów.

Wyniki oceny

Te modele zostały ocenione pod kątem etyki, bezpieczeństwa i sprawiedliwości oraz spełniają wewnętrzne wytyczne. W porównaniu z benchmarkami zbiory danych do oceny były iterowane i wyważone w stosunku do różnych map kategorii. Etykiety bezpieczeństwa obrazów były też etykietowane przez ludzi i sprawdzane pod kątem zastosowań, które nie zostały uwzględnione przez model. Umożliwiło nam to ulepszanie kolejnych rund oceny.

Zastosowanie i ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

ShieldGemma 2 jest przeznaczony do moderowania treści pod kątem bezpieczeństwa, zarówno w przypadku danych wejściowych od użytkowników, jak i wyników modeli. Modele te są częścią odpowiedzialnego zestawu narzędzi generatywnej AI, czyli zbioru rekomendacji, narzędzi, zbiorów danych i modeli, których celem jest zwiększenie bezpieczeństwa aplikacji AI w ramach ekosystemu Gemma.

Ograniczenia

Obowiązują wszystkie typowe ograniczenia dotyczące dużych modeli językowych. Więcej informacji znajdziesz na karcie modelu Gemma 3. Dodatkowo istnieją ograniczone punkty odniesienia, które można wykorzystać do oceny moderowania treści, więc dane do trenowania i oceny mogą nie być reprezentatywne dla rzeczywistych scenariuszy.

ShieldGemma 2 jest też bardzo wrażliwa na konkretny opis zasad bezpieczeństwa podany przez użytkownika i może działać w nieprzewidziany sposób w warunkach, które wymagają dobrego zrozumienia wieloznaczności i niuansów językowych.

Podobnie jak inne modele należące do ekosystemu Gemma, ShieldGemma podlega zasadom Google dotyczącym niedozwolonych zastosowań.

Uwagi i zagrożenia etyczne

Tworzenie dużych modeli językowych (LLM) budzi pewne wątpliwości etyczne. Podczas tworzenia tych modeli wzięliśmy pod uwagę wiele aspektów.

Więcej informacji znajdziesz na karcie modelu Gemma 3.

Zalety

W momencie wydania ta rodzina modeli zapewnia wydajne, otwarte implementacje dużych modeli językowych zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnych rozmiarach.

Na podstawie danych porównawczych opisanych w tym dokumencie stwierdzono, że te modele zapewniają lepszą wydajność niż inne alternatywne modele otwarte o porównywalnej wielkości.