Gemma 範圍

使用 Gemma Scope 2 分析 Gemma 3

Gemma Scope 2 是一套開放式解讀工具,可全面解讀 Gemma 3 模型系列。這項工具可讓您檢查個別圖層的行為。研究人員可藉此分析複雜的語言模型行為,並偵錯越獄或產生幻覺等突發行為。

這個工具包可做為模型的顯微鏡,提供在 Gemma 3 系列每個層級訓練的稀疏自動編碼器 (SAE)轉碼器

想使用舊版嗎?
研究人員仍可使用原始的 Gemma Scope (適用於 Gemma 2) 處理 Gemma 2 系列模型。

  • 使用 SAE 和轉碼器分析 Gemma 3 中複雜的內部行為和多步驟演算法。
  • 分析特定對話行為、拒絕機制和連鎖思維忠實度,建構更安全的 AI 代理程式。

瞭解詳情

瞭解 Gemma Scope 2 的新架構、訓練資料和功能。
存取 Gemma 3 可解讀性套件的權重、程式碼和說明文件。
試用互動式教學課程,以視覺化方式呈現特徵並修改模型行為。
存取原始 Gemma Scope 的網誌和資源,瞭解 Gemma 2。