Luneta Gemma

Analizowanie modelu Gemma 3 za pomocą Gemma Scope 2

Gemma Scope 2 to kompleksowy, otwarty pakiet narzędzi do interpretacji zaprojektowany z myślą o kolekcji modeli Gemma 3. To narzędzie umożliwia analizowanie zachowań poszczególnych warstw. Umożliwia on badaczom analizowanie złożonych zachowań modeli językowych i debugowanie pojawiających się zachowań, takich jak jailbreaki czy halucynacje.

Ten zestaw narzędzi działa jak mikroskop dla modelu, udostępniając rzadkie autoenkodery (SAE)transkodery wytrenowane na każdej warstwie rodziny modeli Gemma 3.

Szukasz poprzedniej wersji?
Oryginalny Gemma Scope (dla Gemmy 2) jest nadal dostępny dla badaczy pracujących z rodziną modeli Gemma 2.

  • Używaj modeli SAE i transkoderów do analizowania złożonych zachowań wewnętrznych i wieloetapowych algorytmów w modelu Gemma 3.
  • Analizuj konkretne zachowania czatu, mechanizmy odrzucania i wierność łańcucha myślowego, aby tworzyć bezpieczniejsze modele AI.

Więcej informacji

Dowiedz się więcej o nowej architekturze, danych treningowych i możliwościach modelu Gemma Scope 2.
Uzyskaj dostęp do wag, kodu i dokumentacji pakietu interpretacji Gemma 3.
Skorzystaj z interaktywnego samouczka, aby wizualizować cechy i modyfikować działanie modelu.
Dostęp do bloga i zasobów dotyczących pierwotnego zakresu Gemma dla Gemma 2.