Champ d'application Gemma

Analyser Gemma 3 avec Gemma Scope 2

Gemma Scope 2 est une suite complète et ouverte d'outils d'interprétabilité conçue pour la collection de modèles Gemma 3. Cet outil vous permet d'examiner le comportement des calques individuels. Il permet aux chercheurs d'analyser les comportements complexes des modèles linguistiques et de déboguer les comportements émergents tels que les jailbreaks ou les hallucinations.

Cette boîte à outils agit comme un microscope pour le modèle, en fournissant des autoencodeurs creux et des transcodeurs entraînés sur chaque couche de la famille Gemma 3.

Vous recherchez l'ancienne version ?
La Gemma Scope (pour Gemma 2) d'origine reste disponible pour les chercheurs qui travaillent avec la famille de modèles Gemma 2.

  • Utilisez les SAE et les transcodeurs pour analyser les comportements internes complexes et les algorithmes en plusieurs étapes dans Gemma 3.
  • Analysez les comportements de chat spécifiques, les mécanismes de refus et la fidélité de la chaîne de pensée pour créer des agents d'IA plus sûrs.

En savoir plus

Découvrez la nouvelle architecture, les données d'entraînement et les capacités de Gemma Scope 2.
Accédez aux pondérations, au code et à la documentation de la suite d'interprétabilité Gemma 3.
Suivez le tutoriel interactif pour visualiser les caractéristiques et modifier le comportement du modèle.
Accédez au blog et aux ressources pour le champ d'application Gemma d'origine pour Gemma 2.