Gemma 範圍
使用 Gemma Scope 2 分析 Gemma 3
Gemma Scope 2 是一套開放式解讀工具,可全面解讀 Gemma 3 模型系列。這項工具可讓您檢查個別圖層的行為。研究人員可藉此分析複雜的語言模型行為,並偵錯越獄或產生幻覺等突發行為。
這個工具包可做為模型的顯微鏡,提供在 Gemma 3 系列每個層級訓練的稀疏自動編碼器 (SAE) 和轉碼器。
想使用舊版嗎?
研究人員仍可使用原始的 Gemma Scope (適用於 Gemma 2)
處理 Gemma 2 系列模型。
-
模型行為評估
使用 SAE 和轉碼器分析 Gemma 3 中複雜的內部行為和多步驟演算法。 -
聊天機器人安全性和偵錯
分析特定對話行為、拒絕機制和連鎖思維忠實度,建構更安全的 AI 代理程式。
瞭解詳情
閱讀 Gemma Scope 2 網誌
瞭解 Gemma Scope 2 的新架構、訓練資料和功能。
從 Hugging Face 下載
存取 Gemma 3 可解讀性套件的權重、程式碼和說明文件。
在 Colab 中執行
試用互動式教學課程,以視覺化方式呈現特徵並修改模型行為。
舊版 (適用於 Gemma 2 的 Scope Gemma)
存取原始 Gemma Scope 的網誌和資源,瞭解 Gemma 2。