Modelli aperti di Gemma
Una famiglia di modelli aperti, leggeri e all'avanguardia basati sulla stessa ricerca e tecnologia utilizzate per creare i modelli Gemini
Responsabile per definizione
Incorporando misure di sicurezza complete, questi modelli aiutano a garantire soluzioni IA responsabili e affidabili attraverso set di dati selezionati e ottimizzazioni rigorose.
Prestazioni ineguagliabili per le dimensioni
I modelli Gemma ottengono risultati di benchmark eccezionali nelle dimensioni 2B e 7B, superando persino alcuni modelli aperti più grandi.
Framework flessibile
Keras 3.0 è compatibile con JAX, TensorFlow e PyTorch e consente di scegliere e cambiare facilmente i framework in base alle attività.
Varianti del modello Gemma
Guide rapide per gli sviluppatori
Guide rapide per i partner
Benchmark
Gemma definisce un nuovo standard per prestazioni all’avanguardia per dimensioni rispetto a modelli popolari come Llama 2 e Mistral 7B.
5-colpi, top-1
MMLU
Il benchmark MMLU è un test che misura l'ampiezza delle conoscenze e la capacità di risoluzione dei problemi acquisite dai modelli linguistici di grandi dimensioni durante il preaddestramento.
Tiro 0
HellaSwag
Il benchmark HellaSwag mette in dubbio la capacità di un modello linguistico di comprendere e applicare il ragionamento di buon senso selezionando il finale più logico di una storia.
Tiro 0
PIQA
Il benchmark PIQA testa la capacità di un modello linguistico di comprendere e applicare le conoscenze fisiche del buon senso rispondendo a domande sulle interazioni fisiche quotidiane.
Tiro 0
QA
Il benchmark SIQA valuta la comprensione delle interazioni e del buon senso sociale da parte di un modello linguistico ponendo domande sulle azioni delle persone e sulle loro implicazioni sociali.
Tiro 0
Boolq
Il benchmark BoolQ testa la capacità di un modello linguistico di rispondere a domande sì/no (sì/no) naturali (generate in impostazioni non richieste e non vincolate), testando la capacità del modello di eseguire attività di inferenza del linguaggio naturale nel mondo reale.
punteggio parziale
Winogrande
Il benchmark di Winogrande verifica la capacità di un modello linguistico di risolvere attività ambigue di compilazione del vuoto con opzioni binarie, richiedendo un ragionamento generalizzato del buon senso.
7 tiri
CQA
Il benchmark CQA valuta le prestazioni dei modelli linguistici con domande a scelta multipla, richiedendo diversi tipi di conoscenza del buon senso.
OBQA
Il benchmark OBQA valuta la capacità di un modello linguistico di eseguire risposte avanzate alle domande con ragionamento in più fasi, conoscenza del buon senso e comprensione del testo RTF, modellata dopo esami di libri aperti.
ARC-e
Il benchmark ARC-e verifica le competenze avanzate di risposta alle domande di un modello linguistico con domande scientifiche a scelta multipla del livello scolastico del livello scolastico.
ARC-c
Il benchmark ARC-c è un sottoinsieme più mirato del set di dati ARC-e, contenente solo domande risposte in modo errato da algoritmi comuni (base di recupero e co-occorrenza di parole).
5 tiri
TriviaQA
Il benchmark TriviaQA testa le capacità di comprensione con tripli di domande-risposta e prove.
pass@1
HumanEval
Il benchmark HumanEval testa le capacità di generazione del codice di un modello linguistico valutando se le sue soluzioni superano i test delle unità funzionali per i problemi di programmazione.
3 foto
MBPP
Il benchmark MBPP testa la capacità di un modello linguistico di risolvere problemi di programmazione Python di base, concentrandosi sui concetti fondamentali della programmazione e sull'utilizzo delle librerie standard.
mag@1
GSM8K
Il benchmark GSM8K verifica la capacità di un modello linguistico di risolvere problemi matematici a livello scolastico che spesso richiedono più passaggi di ragionamento.
4-colpi
MATH
Il benchmark MATH valuta la capacità di un modello linguistico di risolvere complessi problemi matematici, richiedendo ragionamento, risoluzione di problemi in più fasi e la comprensione di concetti matematici.
AGIEval
Il benchmark AGIEval testa l'intelligence generale di un modello linguistico utilizzando domande derivate da esami del mondo reale progettati per valutare le capacità intellettuali umane (esami di ammissione al college, esami di legge e così via).
B&B
Il benchmark BBH (BIG-Bench Hard) si concentra sulle attività considerate al di là delle capacità degli attuali modelli linguistici, testando i loro limiti in vari ambiti di ragionamento e comprensione.
100%
75%
50%
25%
0%
100%
75%
50%
25%
0%
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
*Consulta il report tecnico per maggiori dettagli sul rendimento con altre metodologie
Accedi a Gemma oggi stesso
I modelli Gemma sono disponibili in tutti i tuoi hub dei modelli preferiti.
Sviluppo di un'IA responsabile
Responsabilità per progettazione
Preaddestrati su dati attentamente selezionati e ottimizzati per la sicurezza in alto, contribuendo a potenziare lo sviluppo di un'IA sicura e responsabile basata sui modelli Gemma.
Valutazione solida e trasparente
Valutazioni complete e report trasparenti rivelano i limiti del modello per adottare un approccio responsabile per ogni caso d'uso.
Favorire uno sviluppo responsabile
Il toolkit per l'IA generativa responsabile aiuta gli sviluppatori a progettare e implementare best practice per l'IA responsabile.
Ottimizzato per Google Cloud
Con i modelli Gemma su Google Cloud, puoi personalizzare profondamente il modello in base alle tue esigenze specifiche con gli strumenti completamente gestiti di Vertex AI o l'opzione autogestita di GKE ed eseguirne il deployment su un'infrastruttura flessibile ed economica ottimizzata per l'IA.
Accelerare la ricerca accademica con i crediti Google Cloud
Il programma di ricerca accademica ha recentemente concluso il periodo di presentazione della domanda, assegnando crediti Google Cloud per supportare i ricercatori che si spingeranno oltre i confini della scoperta scientifica utilizzando i modelli Gemma. Siamo entusiasti di vedere la rivoluzionaria ricerca che emerge da questa iniziativa.
Unisciti alla community
Connettiti, esplora e condividi le tue conoscenze con gli altri nella community dei modelli ML.