ShieldGemma model kartı

Model Sayfası: ShieldGemma

Kaynaklar ve Teknik Dokümanlar:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model Bilgisi

ShieldGemma 2, Gemma 3'ün temel kategorilerdeki resim güvenliği sınıflandırması için 4B BT kontrol noktasında eğitilmiş bir modeldir. Bu model, resimleri alır ve politika başına güvenlik etiketleri döndürür.

Açıklama

Gemma 3'e dayalı ShieldGemma 2, sağlam veri kümeleri ve modeller oluşturmanıza yardımcı olmak için hem sentetik hem de doğal görüntülerin temel kategorilere göre güvenliğini kontrol eden 4 milyar (4 milyar) parametre içeren bir modeldir. Gemma model ailesine eklenen bu model sayesinde araştırmacılar ve geliştiriciler artık önemli zarar türlerinde üretken yapay zeka destekli uygulamalarını etkileyen zararlı içerik riskini en aza indirebilir.

ShieldGemma 2'yi, görüntü dili modelleri için giriş filtresi veya görüntü oluşturma sistemleri için çıkış filtresi olarak kullanmanızı öneririz. Güçlü bir görüntü güvenliği modeli eğitmek için doğal ve sentetik görüntülerden oluşan eğitim veri kümeleri derledik ve güçlü performans göstermesi için Gemma 3'ü talimatlara göre ayarladık. Güvenlik politikalarını farklı karşılaştırmalarla karşılaştırdık ve üçüncü taraf karşılaştırmalarını içeren teknik bir rapor yayınlıyoruz.

Girdiler ve çıkışlar

  • Giriş: Politika tanımı içeren resim ve istem talimatı.
  • Çıkış: "Evet" veya "Hayır" jetonlarının olasılığı. "Evet" jetonu için daha yüksek bir puan, modelin içeriğin dahil edilen politikayı ihlal ettiğinden emin olduğunu gösterir. "Hayır" jetonu için bunun tersi geçerlidir. Sınıflandırma metriklerini ve kalibrasyonunu etkinleştirmek için her iki puan da sağlanır.

İstemlerde kullanılacak kurallar

İstem talimatımız [Prompt Instruction]:

You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.

<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>

Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.

Kullanım alanı: Görüntü sınıflandırma

Zarar Türü Kurallar
Müstehcen içerik "Müstehcen İçerik Olamaz": Resim, uygunsuz veya sansürsüz cinsel eylemleri (ör. pornografi, çıplaklık, tecavüz veya cinsel saldırı tasvirleri) tasvir eden içerikler içermemelidir.
Tehlikeli içerik "Tehlikeli içerik yok": Görüntü, gerçek dünyada zarara neden olabilecek faaliyetleri kolaylaştıran veya teşvik eden içerikler (ör. ateşli silah ve patlayıcı cihaz yapımı, terörizmin teşvik edilmesi, intihar talimatları) içermemelidir.
Şiddet barındıran içerik "Şiddet/Kan barındıran içerik yok": Resim, sarsıcı, sansasyonel veya amaçsız şiddet barındıran içerikler (ör. aşırı kan ve kanlı görüntüler, hayvanlara karşı amaçsız şiddet, aşırı yaralanma veya ölüm anı) içermemelidir.

Alıntı

@article{shieldgemma2,
    title={ShieldGemma 2},
    url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
    author={ShieldGemma Team},
    year={2025}
}

Model verileri

Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.

Eğitim Veri Kümesi

Eğitim veri kümemiz hem doğal hem de sentetik görüntülerden oluşur. Doğal resimler için WebLI (Web Dili ve Görüntüsü) veri kümesinden güvenlik görevleriyle alakalı bir resim alt kümesini örneklendiririz. Sentetik görüntüler için, istemlerin ve görüntülerin çeşitliliğini ve ciddiyet düzeyini dengeleyen istemlerin ve karşılık gelen görüntülerin kontrollü bir şekilde oluşturulmasını sağlamak amacıyla dahili bir veri oluşturma ardışık düzeni kullanırız. Bu çalışmada, yalnızca İngilizce dilinde tehlikeli, müstehcen ve şiddet barındıran içeriklerle sınırlı olarak zarar türleri incelenmiştir. Ek rakip ve alt konular, ilgili politikalara ve çeşitli demografik gruplara, bağlamlara ve bölgesel özelliklere karşılık gelen bir sınıflandırma kullanılarak yapılandırıldı.

Veri Ön İşleme

Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır: CSAM Filtreleme: Yasa dışı içeriğin hariç tutulması için veri hazırlama sürecinde CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme uygulandı.

Uygulama Bilgileri

Donanım

ShieldGemma 2, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitilmiştir. Daha fazla bilgi için Gemma 3 model kartına bakın.

Yazılım

Eğitim, JAX ve ML Pathways kullanılarak gerçekleştirildi. Daha fazla bilgi için Gemma 3 model kartına bakın.

Değerlendirme

Karşılaştırma Sonuçları

ShieldGemma 2 4B, dahili ve harici veri kümeleriyle değerlendirildi. Dahili veri kümemiz, dahili resim verileri kürleme ardışık düzenimiz aracılığıyla sentetik olarak oluşturulur. Bu ardışık düzen, sorun tanımı, güvenlik sınıflandırması oluşturma, resim sorgusu oluşturma, resim oluşturma, özellik analizi, etiket kalitesi doğrulaması ve daha fazlası gibi önemli adımları içerir. Her zarar politikası için yaklaşık 500 örneğimiz vardır. Cinsel içerik, tehlikeli içerik ve şiddet için olumlu oranlar sırasıyla %39, %67 ve% 32'dir. Ayrıca, harici veri kümelerine göre değerlendirmeleri içeren teknik bir rapor da yayınlayacağız.

Dahili Karşılaştırma Değerlendirmesi Sonuçları

Model Müstehcen Tehlikeli İçerikler Şiddet ve kan
LlavaGuard 7B 47,6/93,1/63,0 67,8/47,2/55,7 36,8/100,0/53,8
GPT-4o mini 68,3/97,7/80,3 84,4/99,0/91,0 40,2/100,0/57,3
Gemma-3-4B-IT 77,7/87,9/82,5 75,9/94,5/84,2 78.2/82.2/80.1
ShieldGemma-2-Image-4B 87,6/89,7/88,6 95,6/91,9/93,7 80,3/90,4/85,0

Etik ve Güvenlik

Değerlendirme Yaklaşımı

ShieldGemma modelleri üretken modeller olsa da bir sonraki jetonun Yes veya No olma olasılığını tahmin etmek için puanlama modunda çalıştırılmak üzere tasarlanmıştır. Bu nedenle güvenlik değerlendirmesi, öncelikle etkili resim güvenliği etiketleri oluşturmaya odaklandı.

Değerlendirme Sonuçları

Bu modeller etik, güvenlik ve adalet açısından değerlendirildi ve dahili yönergelere uygun bulundu. Karşılaştırma değerleriyle karşılaştırıldığında, değerlendirme veri kümeleri üzerinde iterasyon yapıldı ve çeşitli taksonomilerle dengelendi. Görüntü güvenlik etiketleri de gerçek kişiler tarafından etiketlendi ve modelin atladığı kullanım alanları açısından kontrol edildi. Bu sayede değerlendirme turlarını iyileştirebildik.

Kullanım ve Sınırlılıklar

Bu modellerin kullanıcıların bilmesi gereken belirli sınırlamaları vardır.

Kullanım Amacı

ShieldGemma 2, gerçek kullanıcı girişleri, model çıkışları veya her ikisi için güvenlik içeriği moderatörü olarak kullanılmak üzere tasarlanmıştır. Bu modeller, Gemma ekosisteminin bir parçası olarak yapay zeka uygulamalarının güvenliğini artırmayı amaçlayan öneriler, araçlar, veri kümeleri ve modellerden oluşan Sorumluluk Bilinciyle Üretken Yapay Zeka Aracı Kiti'nin bir parçasıdır.

Sınırlamalar

Büyük dil modelleriyle ilgili tüm sınırlamalar geçerlidir. Daha fazla bilgi için Gemma 3 model kartına bakın. Ayrıca, içerik moderasyonunu değerlendirmek için kullanılabilecek sınırlı karşılaştırma ölçütleri vardır. Bu nedenle, eğitim ve değerlendirme verileri gerçek senaryoları temsil etmeyebilir.

ShieldGemma 2, kullanıcı tarafından sağlanan güvenlik ilkelerinin açıklamasına da son derece duyarlıdır ve dilin belirsizliği ve nüanslarının iyi anlaşılmasını gerektiren koşullarda beklenmedik şekilde performans gösterebilir.

Gemma ekosisteminin bir parçası olan diğer modellerde olduğu gibi ShieldGemma da Google'ın yasaklanmış kullanım politikalarına tabidir.

Etik Konular ve Riskler

Büyük dil modellerinin (LLM'ler) geliştirilmesi, çeşitli etik endişelere yol açar. Bu modellerin geliştirilmesinde dikkatle ele aldığımız birden fazla yön var.

Daha fazla bilgi için Gemma 3 model kartına bakın.

Avantajları

Bu model ailesi, kullanıma sunulduğunda benzer büyüklükteki modellere kıyasla sorumlu yapay zeka geliştirme için sıfırdan tasarlanmış yüksek performanslı açık büyük dil modeli uygulamaları sunar.

Bu dokümanda açıklanan karşılaştırma değerlendirme metrikleri kullanılarak, bu modellerin benzer boyutta diğer açık model alternatiflerine kıyasla üstün performans sağladığı gösterilmiştir.