Luneta Gemma
Analizowanie modelu Gemma 3 za pomocą Gemma Scope 2
Gemma Scope 2 to kompleksowy, otwarty pakiet narzędzi do interpretacji zaprojektowany z myślą o kolekcji modeli Gemma 3. To narzędzie umożliwia analizowanie zachowań poszczególnych warstw. Umożliwia on badaczom analizowanie złożonych zachowań modeli językowych i debugowanie pojawiających się zachowań, takich jak jailbreaki czy halucynacje.
Ten zestaw narzędzi działa jak mikroskop dla modelu, udostępniając rzadkie autoenkodery (SAE) i transkodery wytrenowane na każdej warstwie rodziny modeli Gemma 3.
Szukasz poprzedniej wersji?
Oryginalny Gemma Scope (dla Gemmy 2)
jest nadal dostępny dla badaczy pracujących z rodziną modeli Gemma 2.
-
Ocena zachowania modelu
Używaj modeli SAE i transkoderów do analizowania złożonych zachowań wewnętrznych i wieloetapowych algorytmów w modelu Gemma 3. -
Bezpieczeństwo i debugowanie czatbota
Analizuj konkretne zachowania czatu, mechanizmy odrzucania i wierność łańcucha myślowego, aby tworzyć bezpieczniejsze modele AI.