Gemma-Umfang

Gemma 3 mit Gemma Scope 2 analysieren

Gemma Scope 2 ist eine umfassende, offene Suite von Interpretierbarkeitstools, die für die Gemma 3-Modellsammlung entwickelt wurde. Mit diesem Tool können Sie das Verhalten einzelner Ebenen untersuchen. Damit können Forscher komplexes Verhalten von Sprachmodellen analysieren und neu auftretende Verhaltensweisen wie Jailbreaks oder Halluzinationen debuggen.

Dieses Toolkit fungiert als Mikroskop für das Modell und bietet dünnbesetzte Autoencoder (Sparse Autoencoders, SAEs) und Transcoder, die für jede Ebene der Gemma 3-Familie trainiert wurden.

Sie suchen die vorherige Version?
Der ursprüngliche Gemma Scope (für Gemma 2) ist weiterhin für Forscher verfügbar, die mit der Gemma 2-Modellfamilie arbeiten.

  • Mit SAEs und Transcodern können Sie komplexe interne Verhaltensweisen und mehrstufige Algorithmen in Gemma 3 analysieren.
  • Analysieren Sie bestimmte Chat-Verhaltensweisen, Ablehnungsmechanismen und die Treue der Gedankenkette, um sicherere KI-Agents zu entwickeln.

Weitere Informationen

Informationen zur neuen Architektur, den Trainingsdaten und den Funktionen von Gemma Scope 2
Greifen Sie auf die Gewichte, den Code und die Dokumentation für die Gemma 3-Suite zur Interpretierbarkeit zu.
Mithilfe des interaktiven Tutorials können Sie Features visualisieren und das Modellverhalten ändern.
Hier finden Sie den Blog und die Ressourcen für den ursprünglichen Gemma-Umfang für Gemma 2.