Telescópio Gemma

Analisar o Gemma 3 com o Gemma Scope 2

O Gemma Scope 2 é um conjunto abrangente e aberto de ferramentas de interpretabilidade projetadas para a coleção de modelos Gemma 3. Com ela, é possível examinar o comportamento de camadas individuais. Ele permite que os pesquisadores analisem comportamentos complexos de modelos de linguagem e depurem comportamentos emergentes, como jailbreaks ou alucinações.

Esse kit de ferramentas funciona como um microscópio para o modelo, fornecendo autoencoders esparsos (SAEs) e transcodificadores treinados em todas as camadas da família Gemma 3.

Procurando a versão anterior?
O escopo original do Gemma (para o Gemma 2) continua disponível para pesquisadores que trabalham com a família de modelos do Gemma 2.

  • Use SAEs e transcodificadores para analisar comportamentos internos complexos e algoritmos de várias etapas no Gemma 3.
  • Analise comportamentos específicos de chat, mecanismos de recusa e fidelidade da cadeia de pensamento para criar agentes de IA mais seguros.

Saiba mais

Leia sobre a nova arquitetura, os dados de treinamento e os recursos do Gemma Scope 2.
Acesse os pesos, o código e a documentação do pacote de interpretabilidade do Gemma 3.
Teste o tutorial interativo para visualizar recursos e modificar o comportamento do modelo.
Acesse o blog e os recursos do escopo original da Gemma para a Gemma 2.