گما اسکوپ
جما ۳ را با جما اسکوپ ۲ تحلیل کنید
Gemma Scope 2 مجموعهای جامع و باز از ابزارهای تفسیرپذیری است که برای مجموعه مدل Gemma 3 طراحی شده است. این ابزار به شما امکان میدهد رفتار لایههای منفرد را بررسی کنید. به محققان اجازه میدهد رفتارهای پیچیده مدل زبان را تجزیه و تحلیل کرده و رفتارهای نوظهور مانند فرار از زندان یا توهم را اشکالزدایی کنند.
این جعبه ابزار به عنوان یک میکروسکوپ برای مدل عمل میکند و رمزگذارهای خودکار پراکنده (SAE) و رمزگذارهای تبدیلی آموزشدیده روی هر لایه از خانواده Gemma 3 را ارائه میدهد.
دنبال نسخه قبلی هستی؟
تلسکوپ اصلی Gemma (برای Gemma 2) برای محققانی که با خانواده مدلهای Gemma 2 کار میکنند، همچنان در دسترس است.
-
ارزیابی رفتار مدل
استفاده از SAEها و Transcoders برای تحلیل رفتارهای داخلی پیچیده و الگوریتمهای چند مرحلهای در Gemma 3. -
ایمنی و اشکالزدایی چتبات
رفتارهای خاص چت، مکانیسمهای امتناع و وفاداری به زنجیره افکار را برای ساخت عوامل هوش مصنوعی امنتر تجزیه و تحلیل کنید.