Ambito Gemma
Analizzare Gemma 3 con Gemma Scope 2
Gemma Scope 2 è una suite completa e aperta di strumenti di interpretabilità progettati per la raccolta di modelli Gemma 3. Questo strumento ti consente di esaminare il comportamento dei singoli livelli. Consente ai ricercatori di analizzare i comportamenti complessi dei modelli linguistici e di eseguire il debug di comportamenti emergenti come jailbreak o allucinazioni.
Questo toolkit funge da microscopio per il modello, fornendo Sparse Autoencoders (SAE) e Transcoder addestrati su ogni livello della famiglia Gemma 3.
Stai cercando la versione precedente?
L'ambito di Gemma (per Gemma 2) originale
rimane disponibile per i ricercatori che lavorano con la famiglia di modelli Gemma 2.
-
Valutazione del comportamento del modello
Utilizza gli SAE e i transcodificatori per analizzare comportamenti interni complessi e algoritmi in più passaggi in Gemma 3. -
Sicurezza e debug dei chatbot
Analizza comportamenti specifici della chat, meccanismi di rifiuto e fedeltà della catena di pensiero per creare agenti AI più sicuri.