Model Sayfası: ShieldGemma
Kaynaklar ve Teknik Dokümanlar:
Kullanım Şartları: Şartlar
Yazarlar: Google
Model Bilgisi
ShieldGemma 2, Gemma 3'ün temel kategorilerdeki resim güvenliği sınıflandırması için 4B BT kontrol noktasında eğitilmiş bir modeldir. Bu model, resimleri alır ve politika başına güvenlik etiketleri döndürür.
Açıklama
Gemma 3'e dayalı ShieldGemma 2, sağlam veri kümeleri ve modeller oluşturmanıza yardımcı olmak için hem sentetik hem de doğal görüntülerin temel kategorilere göre güvenliğini kontrol eden 4 milyar (4 milyar) parametre içeren bir modeldir. Gemma model ailesine eklenen bu model sayesinde araştırmacılar ve geliştiriciler artık önemli zarar türlerinde üretken yapay zeka destekli uygulamalarını etkileyen zararlı içerik riskini en aza indirebilir.
ShieldGemma 2'yi, görüntü dili modelleri için giriş filtresi veya görüntü oluşturma sistemleri için çıkış filtresi olarak kullanmanızı öneririz. Güçlü bir görüntü güvenliği modeli eğitmek için doğal ve sentetik görüntülerden oluşan eğitim veri kümeleri derledik ve güçlü performans göstermesi için Gemma 3'ü talimatlara göre ayarladık. Güvenlik politikalarını farklı karşılaştırmalarla karşılaştırdık ve üçüncü taraf karşılaştırmalarını içeren teknik bir rapor yayınlıyoruz.
Girdiler ve çıkışlar
- Giriş: Politika tanımı içeren resim ve istem talimatı.
- Çıkış: "Evet" veya "Hayır" jetonlarının olasılığı. "Evet" jetonu için daha yüksek bir puan, modelin içeriğin dahil edilen politikayı ihlal ettiğinden emin olduğunu gösterir. "Hayır" jetonu için bunun tersi geçerlidir. Sınıflandırma metriklerini ve kalibrasyonunu etkinleştirmek için her iki puan da sağlanır.
İstemlerde kullanılacak kurallar
İstem talimatımız [Prompt Instruction]
:
You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.
<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>
Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.
Kullanım alanı: Görüntü sınıflandırma
Zarar Türü | Kurallar |
---|---|
Müstehcen içerik | "Müstehcen İçerik Olamaz": Resim, uygunsuz veya sansürsüz cinsel eylemleri (ör. pornografi, çıplaklık, tecavüz veya cinsel saldırı tasvirleri) tasvir eden içerikler içermemelidir. |
Tehlikeli içerik | "Tehlikeli içerik yok": Görüntü, gerçek dünyada zarara neden olabilecek faaliyetleri kolaylaştıran veya teşvik eden içerikler (ör. ateşli silah ve patlayıcı cihaz yapımı, terörizmin teşvik edilmesi, intihar talimatları) içermemelidir. |
Şiddet barındıran içerik | "Şiddet/Kan barındıran içerik yok": Resim, sarsıcı, sansasyonel veya amaçsız şiddet barındıran içerikler (ör. aşırı kan ve kanlı görüntüler, hayvanlara karşı amaçsız şiddet, aşırı yaralanma veya ölüm anı) içermemelidir. |
Alıntı
@article{shieldgemma2,
title={ShieldGemma 2},
url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
author={ShieldGemma Team},
year={2025}
}
Model verileri
Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.
Eğitim Veri Kümesi
Eğitim veri kümemiz hem doğal hem de sentetik görüntülerden oluşur. Doğal resimler için WebLI (Web Dili ve Görüntüsü) veri kümesinden güvenlik görevleriyle alakalı bir resim alt kümesini örneklendiririz. Sentetik görüntüler için, istemlerin ve görüntülerin çeşitliliğini ve ciddiyet düzeyini dengeleyen istemlerin ve karşılık gelen görüntülerin kontrollü bir şekilde oluşturulmasını sağlamak amacıyla dahili bir veri oluşturma ardışık düzeni kullanırız. Bu çalışmada, yalnızca İngilizce dilinde tehlikeli, müstehcen ve şiddet barındıran içeriklerle sınırlı olarak zarar türleri incelenmiştir. Ek rakip ve alt konular, ilgili politikalara ve çeşitli demografik gruplara, bağlamlara ve bölgesel özelliklere karşılık gelen bir sınıflandırma kullanılarak yapılandırıldı.
Veri Ön İşleme
Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır: CSAM Filtreleme: Yasa dışı içeriğin hariç tutulması için veri hazırlama sürecinde CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme uygulandı.
Uygulama Bilgileri
Donanım
ShieldGemma 2, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitilmiştir. Daha fazla bilgi için Gemma 3 model kartına bakın.
Yazılım
Eğitim, JAX ve ML Pathways kullanılarak gerçekleştirildi. Daha fazla bilgi için Gemma 3 model kartına bakın.
Değerlendirme
Karşılaştırma Sonuçları
ShieldGemma 2 4B, dahili ve harici veri kümeleriyle değerlendirildi. Dahili veri kümemiz, dahili resim verileri kürleme ardışık düzenimiz aracılığıyla sentetik olarak oluşturulur. Bu ardışık düzen, sorun tanımı, güvenlik sınıflandırması oluşturma, resim sorgusu oluşturma, resim oluşturma, özellik analizi, etiket kalitesi doğrulaması ve daha fazlası gibi önemli adımları içerir. Her zarar politikası için yaklaşık 500 örneğimiz vardır. Cinsel içerik, tehlikeli içerik ve şiddet için olumlu oranlar sırasıyla %39, %67 ve% 32'dir. Ayrıca, harici veri kümelerine göre değerlendirmeleri içeren teknik bir rapor da yayınlayacağız.
Dahili Karşılaştırma Değerlendirmesi Sonuçları
Model | Müstehcen | Tehlikeli İçerikler | Şiddet ve kan |
---|---|---|---|
LlavaGuard 7B | 47,6/93,1/63,0 | 67,8/47,2/55,7 | 36,8/100,0/53,8 |
GPT-4o mini | 68,3/97,7/80,3 | 84,4/99,0/91,0 | 40,2/100,0/57,3 |
Gemma-3-4B-IT | 77,7/87,9/82,5 | 75,9/94,5/84,2 | 78.2/82.2/80.1 |
ShieldGemma-2-Image-4B | 87,6/89,7/88,6 | 95,6/91,9/93,7 | 80,3/90,4/85,0 |
Etik ve Güvenlik
Değerlendirme Yaklaşımı
ShieldGemma modelleri üretken modeller olsa da bir sonraki jetonun Yes
veya No
olma olasılığını tahmin etmek için puanlama modunda çalıştırılmak üzere tasarlanmıştır. Bu nedenle güvenlik değerlendirmesi, öncelikle etkili resim güvenliği etiketleri oluşturmaya odaklandı.
Değerlendirme Sonuçları
Bu modeller etik, güvenlik ve adalet açısından değerlendirildi ve dahili yönergelere uygun bulundu. Karşılaştırma değerleriyle karşılaştırıldığında, değerlendirme veri kümeleri üzerinde iterasyon yapıldı ve çeşitli taksonomilerle dengelendi. Görüntü güvenlik etiketleri de gerçek kişiler tarafından etiketlendi ve modelin atladığı kullanım alanları açısından kontrol edildi. Bu sayede değerlendirme turlarını iyileştirebildik.
Kullanım ve Sınırlılıklar
Bu modellerin kullanıcıların bilmesi gereken belirli sınırlamaları vardır.
Kullanım Amacı
ShieldGemma 2, gerçek kullanıcı girişleri, model çıkışları veya her ikisi için güvenlik içeriği moderatörü olarak kullanılmak üzere tasarlanmıştır. Bu modeller, Gemma ekosisteminin bir parçası olarak yapay zeka uygulamalarının güvenliğini artırmayı amaçlayan öneriler, araçlar, veri kümeleri ve modellerden oluşan Sorumluluk Bilinciyle Üretken Yapay Zeka Aracı Kiti'nin bir parçasıdır.
Sınırlamalar
Büyük dil modelleriyle ilgili tüm sınırlamalar geçerlidir. Daha fazla bilgi için Gemma 3 model kartına bakın. Ayrıca, içerik moderasyonunu değerlendirmek için kullanılabilecek sınırlı karşılaştırma ölçütleri vardır. Bu nedenle, eğitim ve değerlendirme verileri gerçek senaryoları temsil etmeyebilir.
ShieldGemma 2, kullanıcı tarafından sağlanan güvenlik ilkelerinin açıklamasına da son derece duyarlıdır ve dilin belirsizliği ve nüanslarının iyi anlaşılmasını gerektiren koşullarda beklenmedik şekilde performans gösterebilir.
Gemma ekosisteminin bir parçası olan diğer modellerde olduğu gibi ShieldGemma da Google'ın yasaklanmış kullanım politikalarına tabidir.
Etik Konular ve Riskler
Büyük dil modellerinin (LLM'ler) geliştirilmesi, çeşitli etik endişelere yol açar. Bu modellerin geliştirilmesinde dikkatle ele aldığımız birden fazla yön var.
Daha fazla bilgi için Gemma 3 model kartına bakın.
Avantajları
Bu model ailesi, kullanıma sunulduğunda benzer büyüklükteki modellere kıyasla sorumlu yapay zeka geliştirme için sıfırdan tasarlanmış yüksek performanslı açık büyük dil modeli uygulamaları sunar.
Bu dokümanda açıklanan karşılaştırma değerlendirme metrikleri kullanılarak, bu modellerin benzer boyutta diğer açık model alternatiflerine kıyasla üstün performans sağladığı gösterilmiştir.