Ambito Gemma

Analizzare Gemma 3 con Gemma Scope 2

Gemma Scope 2 è una suite completa e aperta di strumenti di interpretabilità progettati per la raccolta di modelli Gemma 3. Questo strumento ti consente di esaminare il comportamento dei singoli livelli. Consente ai ricercatori di analizzare i comportamenti complessi dei modelli linguistici e di eseguire il debug di comportamenti emergenti come jailbreak o allucinazioni.

Questo toolkit funge da microscopio per il modello, fornendo Sparse Autoencoders (SAE) e Transcoder addestrati su ogni livello della famiglia Gemma 3.

Stai cercando la versione precedente?
L'ambito di Gemma (per Gemma 2) originale rimane disponibile per i ricercatori che lavorano con la famiglia di modelli Gemma 2.

  • Utilizza gli SAE e i transcodificatori per analizzare comportamenti interni complessi e algoritmi in più passaggi in Gemma 3.
  • Analizza comportamenti specifici della chat, meccanismi di rifiuto e fedeltà della catena di pensiero per creare agenti AI più sicuri.

Scopri di più

Scopri la nuova architettura, i dati di addestramento e le funzionalità di Gemma Scope 2.
Accedi ai pesi, al codice e alla documentazione della suite di interpretabilità Gemma 3.
Prova il tutorial interattivo per visualizzare le funzionalità e modificare il comportamento del modello.
Accedi al blog e alle risorse per l'ambito originale di Gemma per Gemma 2.