Gemma 镜
使用 Gemma Scope 2 分析 Gemma 3
Gemma Scope 2 是一套全面的开放式可解释性工具,专为 Gemma 3 模型系列而设计。借助此工具,您可以检查各个层的行为。研究人员可以利用它来分析复杂的语言模型行为,并调试越狱或幻觉等突发行为。
此工具包充当模型的显微镜,提供在 Gemma 3 系列的每一层上训练的稀疏自动编码器 (SAE) 和转码器。
在寻找旧版?
原始 Gemma 范围(适用于 Gemma 2)
仍可供使用 Gemma 2 系列模型的研究人员使用。
-
模型行为评估
使用 SAE 和转码器分析 Gemma 3 中的复杂内部行为和多步算法。 -
聊天机器人安全与调试
分析特定的聊天行为、拒绝机制和思维链忠实度,以构建更安全的 AI 代理。
了解详情
阅读 Gemma Scope 2 博客
了解 Gemma Scope 2 的新架构、训练数据和功能。
从 Hugging Face 下载
访问 Gemma 3 可解释性套件的权重、代码和文档。
在 Colab 中运行
试用互动式教程,直观呈现特征并修改模型行为。
旧版本(将 Gemma 的范围限定为 Gemma 2)
访问博客和资源,了解原始 Gemma 范围,以便使用 Gemma 2。