Karta e modelit ShieldGemma

Faqja e modelit : ShieldGemma

Burimet dhe Dokumentacioni Teknik :

Kushtet e Përdorimit : Kushtet

Autorët : Google

Informacioni i modelit

ShieldGemma 2 është një model i trajnuar në pikën e kontrollit 4B të Gemma 3 për klasifikimin e sigurisë së imazhit nëpër kategoritë kryesore që merr imazhe dhe nxjerr etiketa sigurie sipas politikës.

Përshkrimi

ShieldGemma 2, i ndërtuar në Gemma 3, është një model me parametra 4 miliardë (4B) që kontrollon sigurinë e imazheve sintetike dhe natyrore ndaj kategorive kryesore për t'ju ndihmuar të krijoni grupe të dhënash dhe modele të fuqishme. Me këtë shtesë në familjen e modeleve Gemma, kërkuesit dhe zhvilluesit tani mund të minimizojnë rrezikun e përmbajtjes së dëmshme që ndikon në aplikacionet e tyre të fuqizuara nga AI Gjenerative në të gjitha llojet kryesore të dëmit .

Ne rekomandojmë përdorimin e ShieldGemma 2 si një filtër hyrës për modelet e gjuhës së vizionit, ose si një filtër dalës i sistemeve të gjenerimit të imazheve. Për të trajnuar një model të fortë sigurie imazhi, ne kuruam grupet e të dhënave të trajnimit të imazheve natyrale dhe sintetike dhe Gemma 3 të akorduar me udhëzime për të demonstruar performancë të fortë. Ne krahasuam politikat e sigurisë me standarde të ndryshme dhe po publikojmë një raport teknik që përfshin standardet e palëve të treta.

Inputet dhe daljet

  • Input: Imazhi dhe udhëzim i shpejtë me përcaktimin e politikës.
  • Produkti: Probabiliteti i shenjave 'Po' ose 'Jo'. Një rezultat më i lartë për shenjën "Po" tregon se modeli ka besim se përmbajtja shkel politikën e përfshirë. E kundërta është e vërtetë për shenjën "Jo". Të dy rezultatet janë dhënë për të mundësuar matjet e klasifikimit dhe kalibrimin.

Udhëzime për t'u përdorur në kërkesat

Këtu është udhëzimi ynë i shpejtë [Prompt Instruction] :

You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.

<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>

Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.

Rasti i përdorimit: Klasifikimi i imazhit

Lloji i dëmit Udhëzues
Përmbajtje seksualisht eksplicite "Nuk ka përmbajtje të qartë seksuale": Imazhi nuk duhet të përmbajë përmbajtje që përshkruan akte seksuale të qarta ose grafike (p.sh., pornografi, erotike. lakuriqësi, përshkrime të përdhunimit ose sulmeve seksuale).
Përmbajtje e rrezikshme "Pa përmbajtje të rrezikshme": Imazhi nuk duhet të përmbajë përmbajtje që lehtëson ose inkurajon aktivitete që mund të shkaktojnë dëm në botën reale (p.sh. ndërtimi i armëve të zjarrit dhe pajisjeve shpërthyese, promovimi i terrorizmit, udhëzime për vetëvrasje).
Përmbajtje të dhunshme "Nuk ka dhunë/përmbajtje Gore": Imazhi nuk duhet të përmbajë përmbajtje që përshkruan dhunë tronditëse, të bujshme ose të paarsyeshme (p.sh. gjak dhe gjak i tepërt, dhunë e lirë ndaj kafshëve, lëndim ekstrem ose moment vdekjeje).

Citim

@article{shieldgemma2,
    title={ShieldGemma 2},
    url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
    author={ShieldGemma Team},
    year={2025}
}

Të dhënat e modelit

Të dhënat e përdorura për trajnimin e modeleve dhe si u përpunuan të dhënat.

Të dhënat e trajnimit

Të dhënat tona të trajnimit përbëhen nga imazhe natyrore dhe imazhe sintetike. Për imazhe natyrore, ne mostojmë një nëngrup imazhesh nga grupi i të dhënave WebLI (Gjuha dhe imazhi i uebit) që janë të rëndësishme për detyrat e sigurisë. Për imazhet sintetike, ne përdorim një linjë të brendshme të gjenerimit të të dhënave për të mundësuar gjenerimin e kontrolluar të kërkesave dhe imazheve përkatëse që balancojnë diversitetin dhe ashpërsinë e imazheve. Për këtë studim, llojet e dëmeve ishin të kufizuara në përmbajtje të rrezikshme, seksualisht eksplicite dhe të dhunshme, vetëm me anglisht. Kundërshtarët dhe nën-temat shtesë u strukturuan duke përdorur një taksonomi që korrespondon me politikat përkatëse dhe një sërë aspektesh demografike, konteksti dhe rajonal.

Parapërpunimi i të dhënave

Këtu janë metodat kryesore të pastrimit dhe filtrimit të të dhënave të aplikuara për të dhënat e trajnimit: Filtrimi CSAM: Filtrimi CSAM (Materiali i Abuzimit seksual të Fëmijëve) u aplikua në procesin e përgatitjes së të dhënave për të siguruar përjashtimin e përmbajtjes së paligjshme.

Informacioni i Zbatimit

Hardware

ShieldGemma 2 u trajnua duke përdorur gjeneratën e fundit të harduerit të Njësisë së Përpunimit Tensor (TPU) (TPUv5e), për më shumë detaje referojuni kartës së modelit Gemma 3 .

Software

Trajnimi është bërë duke përdorur JAX dhe ML Pathways . Për më shumë detaje, referojuni kartës së modelit Gemma 3 .

Vlerësimi

Rezultatet e standardeve

ShieldGemma 2 4B u vlerësua kundrejt grupeve të të dhënave të brendshme dhe të jashtme. Të dhënat tona të brendshme gjenerohen në mënyrë sintetike përmes tubacionit tonë të brendshëm të kurimit të të dhënave të imazhit. Ky tubacion përfshin hapa kyç si përcaktimi i problemit, gjenerimi i taksonomisë së sigurisë, gjenerimi i pyetjeve të imazhit, gjenerimi i imazheve, analiza e atributeve, vërtetimi i cilësisë së etiketës dhe më shumë. Ne kemi afërsisht 500 shembuj për çdo politikë dëmtimi. Raportet pozitive janë përkatësisht 39%, 67%, 32% për përmbajtje seksuale, të rrezikshme, dhunë. Ne gjithashtu do të publikojmë një raport teknik që përfshin vlerësime ndaj grupeve të të dhënave të jashtme.

Rezultatet e vlerësimit të standardeve të brendshme

Model Seksualisht eksplicite Përmbajtje e rrezikshme Dhuna & Gore
LlavaGarda 7B 47.6/93.1/63.0 67.8/47.2/55.7 36.8/100.0/53.8
GPT-4o mini 68.3/97.7/80.3 84.4/99.0/91.0 40.2/100.0/57.3
Gemma-3-4B-IT 77.7/87.9/82.5 75.9/94.5/84.2 78.2/82.2/80.1
ShieldGemma-2-Image-4B 87.6/89.7/88.6 95.6/91.9/93.7 80.3/90.4/85.0

Etika dhe Siguria

Qasja e Vlerësimit

Megjithëse modelet ShieldGemma janë modele gjeneruese, ato janë krijuar për t'u ekzekutuar në modalitetin e pikëzimit për të parashikuar probabilitetin që tokeni tjetër të jetë Yes ose No . Prandaj, vlerësimi i sigurisë u fokusua kryesisht në nxjerrjen e etiketave efektive të sigurisë së imazhit.

Rezultatet e Vlerësimit

Këto modele u vlerësuan për konsiderata të etikës, sigurisë dhe drejtësisë dhe plotësuan udhëzimet e brendshme. Kur krahasohen me standardet, grupet e të dhënave të vlerësimit u përsëritën dhe u balancuan kundrejt taksonomive të ndryshme. Etiketat e sigurisë së imazhit u etiketuan gjithashtu nga njeriu dhe u kontrolluan për rastet e përdorimit që i shmangeshin modelit, duke na mundësuar të përmirësohemi pas raundeve të vlerësimit.

Përdorimi dhe Kufizimet

Këto modele kanë disa kufizime për të cilat përdoruesit duhet të jenë të vetëdijshëm.

Përdorimi i synuar

ShieldGemma 2 synohet të përdoret si një moderator i përmbajtjes së sigurisë, qoftë për hyrjet e përdoruesve njerëzorë, daljet e modelit ose të dyja. Këto modele janë pjesë e Instrumenteve Përgjegjëse Gjenerative AI , e cila është një grup rekomandimesh, mjetesh, grupesh të dhënash dhe modelesh që synojnë të përmirësojnë sigurinë e aplikacioneve të AI si pjesë e ekosistemit Gemma.

Kufizimet

Të gjitha kufizimet e zakonshme për modelet e gjuhëve të mëdha zbatohen, shihni kartën e modelit Gemma 3 për më shumë detaje. Për më tepër, ka standarde të kufizuara që mund të përdoren për të vlerësuar moderimin e përmbajtjes, kështu që të dhënat e trajnimit dhe vlerësimit mund të mos jenë përfaqësuese të skenarëve të botës reale.

ShieldGemma 2 është gjithashtu shumë i ndjeshëm ndaj përshkrimit specifik të ofruar nga përdoruesi të parimeve të sigurisë dhe mund të funksionojë në mënyrë të paparashikueshme në kushte që kërkojnë një kuptim të mirë të dykuptimësisë dhe nuancës së gjuhës.

Ashtu si me modelet e tjera që janë pjesë e ekosistemit Gemma, ShieldGemma i nënshtrohet politikave të përdorimit të ndaluar të Google.

Konsideratat dhe rreziqet etike

Zhvillimi i modeleve të mëdha gjuhësore (LLM) ngre disa shqetësime etike. Ne kemi shqyrtuar me kujdes aspekte të shumta në zhvillimin e këtyre modeleve.

Referojuni kartës së modelit Gemma 3 për më shumë detaje.

Përfitimet

Në momentin e lëshimit, kjo familje modelesh ofron zbatime të modeleve të gjuhëve të mëdha të hapura me performancë të lartë, të dizajnuara nga themelet për zhvillimin e Përgjegjshëm të AI krahasuar me modelet me madhësi të ngjashme.

Duke përdorur matjet e vlerësimit të standardeve të përshkruara në këtë dokument, këto modele janë treguar se ofrojnë performancë superiore ndaj alternativave të tjera të modelit të hapur me madhësi të krahasueshme.