Gemma 镜

使用 Gemma Scope 2 分析 Gemma 3

Gemma Scope 2 是一套全面的开放式可解释性工具,专为 Gemma 3 模型系列而设计。借助此工具,您可以检查各个层的行为。研究人员可以利用它来分析复杂的语言模型行为,并调试越狱或幻觉等突发行为。

此工具包充当模型的显微镜,提供在 Gemma 3 系列的每一层上训练的稀疏自动编码器 (SAE)转码器

在寻找旧版?
原始 Gemma 范围(适用于 Gemma 2) 仍可供使用 Gemma 2 系列模型的研究人员使用。

  • 使用 SAE 和转码器分析 Gemma 3 中的复杂内部行为和多步算法。
  • 分析特定的聊天行为、拒绝机制和思维链忠实度,以构建更安全的 AI 代理。

了解详情

了解 Gemma Scope 2 的新架构、训练数据和功能。
访问 Gemma 3 可解释性套件的权重、代码和文档。
试用互动式教程,直观呈现特征并修改模型行为。
访问博客和资源,了解原始 Gemma 范围,以便使用 Gemma 2。