Gemma スコープ

Gemma Scope 2 で Gemma 3 を分析する

Gemma Scope 2 は、Gemma 3 モデル コレクション用に設計された、包括的なオープン スイートの解釈可能性ツールです。このツールを使用すると、個々のレイヤの動作を調べることができます。これにより、研究者は複雑な言語モデルの動作を分析し、ジェイルブレイクやハルシネーションなどの緊急の動作をデバッグできます。

このツールキットは、モデルの顕微鏡として機能し、Gemma 3 ファミリーのすべてのレイヤでトレーニングされたスパース オートエンコーダ(SAE)トランスコーダを提供します。

以前のバージョンをお探しですか?
元の Gemma スコープ(Gemma 2 用)は、Gemma 2 ファミリーのモデルを使用する研究者が引き続き利用できます。

  • SAE とトランスコーダを使用して、Gemma 3 の複雑な内部動作と複数ステップのアルゴリズムを分析します。
  • 特定のチャット動作、拒否メカニズム、思考連鎖の忠実さを分析して、より安全な AI エージェントを構築します。

詳細

Gemma Scope 2 の新しいアーキテクチャ、トレーニング データ、機能について説明します。
Gemma 3 の解釈可能性スイートの重み、コード、ドキュメントにアクセスします。
インタラクティブなチュートリアルを試して、特徴を可視化し、モデルの動作を変更します。
Gemma 2 の元の Gemma Scope のブログとリソースにアクセスします。