Telescópio Gemma
Analisar o Gemma 3 com o Gemma Scope 2
O Gemma Scope 2 é um conjunto abrangente e aberto de ferramentas de interpretabilidade projetadas para a coleção de modelos Gemma 3. Com ela, é possível examinar o comportamento de camadas individuais. Ele permite que os pesquisadores analisem comportamentos complexos de modelos de linguagem e depurem comportamentos emergentes, como jailbreaks ou alucinações.
Esse kit de ferramentas funciona como um microscópio para o modelo, fornecendo autoencoders esparsos (SAEs) e transcodificadores treinados em todas as camadas da família Gemma 3.
Procurando a versão anterior?
O escopo original do Gemma (para o Gemma 2)
continua disponível para pesquisadores que trabalham com a família de modelos do Gemma 2.
-
Avaliação do comportamento do modelo
Use SAEs e transcodificadores para analisar comportamentos internos complexos e algoritmos de várias etapas no Gemma 3. -
Segurança e depuração de chatbots
Analise comportamentos específicos de chat, mecanismos de recusa e fidelidade da cadeia de pensamento para criar agentes de IA mais seguros.