Gemma-Umfang
Gemma 3 mit Gemma Scope 2 analysieren
Gemma Scope 2 ist eine umfassende, offene Suite von Interpretierbarkeitstools, die für die Gemma 3-Modellsammlung entwickelt wurde. Mit diesem Tool können Sie das Verhalten einzelner Ebenen untersuchen. Damit können Forscher komplexes Verhalten von Sprachmodellen analysieren und neu auftretende Verhaltensweisen wie Jailbreaks oder Halluzinationen debuggen.
Dieses Toolkit fungiert als Mikroskop für das Modell und bietet dünnbesetzte Autoencoder (Sparse Autoencoders, SAEs) und Transcoder, die für jede Ebene der Gemma 3-Familie trainiert wurden.
Sie suchen die vorherige Version?
Der ursprüngliche Gemma Scope (für Gemma 2)
ist weiterhin für Forscher verfügbar, die mit der Gemma 2-Modellfamilie arbeiten.
-
Bewertung des Modellverhaltens
Mit SAEs und Transcodern können Sie komplexe interne Verhaltensweisen und mehrstufige Algorithmen in Gemma 3 analysieren. -
Chatbot-Sicherheit und ‑Debugging
Analysieren Sie bestimmte Chat-Verhaltensweisen, Ablehnungsmechanismen und die Treue der Gedankenkette, um sicherere KI-Agents zu entwickeln.