Gemma Kapsamı
Gemma Scope 2 ile Gemma 3'ü analiz etme
Gemma Scope 2, Gemma 3 model koleksiyonu için tasarlanmış kapsamlı ve açık bir yorumlanabilirlik araçları paketidir. Bu araç, tek tek katmanların davranışını incelemenize olanak tanır. Bu sayede araştırmacılar, karmaşık dil modeli davranışlarını analiz edebilir ve jailbreak veya halüsinasyon gibi ortaya çıkan davranışlarda hata ayıklayabilir.
Bu araç seti, model için mikroskop görevi görerek Gemma 3 ailesinin her katmanında eğitilmiş Sparse Autoencoders (SAE'ler) ve Transcoder'lar sağlar.
Önceki sürümü mü arıyorsunuz?
Orijinal Gemma Scope (Gemma 2 için)
Gemma 2 model ailesiyle çalışan araştırmacılar tarafından kullanılmaya devam edecektir.
-
Model davranış değerlendirmesi
Gemma 3'teki karmaşık dahili davranışları ve çok adımlı algoritmaları analiz etmek için SAE'leri ve Transcoder'ları kullanın. -
Chatbot güvenliği ve hata ayıklama
Daha güvenli yapay zeka aracıları oluşturmak için belirli sohbet davranışlarını, reddetme mekanizmalarını ve düşünce zincirinin doğruluğunu analiz edin.