Modelli aperti di Gemma

Una famiglia di modelli aperti leggeri e all'avanguardia creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini

Icona Responsabile per progettazione

Progettazione responsabile

Grazie all'integrazione di misure di sicurezza complete, questi modelli contribuiscono a garantire soluzioni di IA responsabili e affidabili tramite set di dati selezionati e ottimizzazioni rigorose.

Icona Rendimento senza precedenti

Prestazioni senza pari in termini di dimensioni

I modelli Gemma raggiungono risultati di benchmark eccezionali con dimensioni di 2 miliardi, 7 miliardi, 9 miliardi e 27 miliardi, superando anche alcuni modelli open più grandi.

Framework flessibile

Deployment flessibile

Esegui il deployment su mobile, web e cloud utilizzando Keras, JAX, MediaPipe, PyTorch, Hugging Face e altro ancora.

Prova Gemma 2

Riprogettato per prestazioni straordinarie ed efficienza senza pari, Gemma 2 è ottimizzato per un'inferenza ultraveloce su diversi hardware.

5 scatti

MMLU

Il benchmark MMLU è un test che misura l'ampiezza delle conoscenze e la capacità di risoluzione dei problemi acquisite dai modelli linguistici di grandi dimensioni durante la pre-addestramento.

25 scatti

ARC-C

Il benchmark ARC-c è un sottoinsieme più mirato del set di dati ARC-e, contenente solo domande a cui è stata data una risposta errata da algoritmi comuni (basati sul recupero e sulla cooccorrenza delle parole).

5 scatti

GSM8K

Il benchmark GSM8K testa la capacità di un modello linguistico di risolvere problemi matematici di livello scolastico che spesso richiedono più passaggi di ragionamento.

3-5-shot

AGIEval

Il benchmark AGIEval testa l'intelligenza generale di un modello linguistico utilizzando domande tratte da esami reali progettati per valutare le capacità intellettuali umane.

3 scatti, CoT

BBH

Il benchmark BBH (BIG-Bench Hard) si concentra su attività ritenute al di là delle capacità degli attuali modelli linguistici, testandone i limiti in vari domini di ragionamento e comprensione.

3 foto, F1

RILASCIA

DROP è un benchmark di comprensione della lettura che richiede un ragionamento discreto sui paragrafi.

5 scatti

Winogrande

Il benchmark Winogrande testa la capacità di un modello linguistico di risolvere attività di completamento dei campi con opzioni binarie ambigue, che richiedono un ragionamento di buon senso generalizzato.

10 scatti

HellaSwag

Il benchmark HellaSwag mette alla prova la capacità di un modello linguistico di comprendere e applicare il ragionamento di buon senso selezionando la fine più logica di una storia.

4 scatti

MATH

MATH valuta la capacità di un modello linguistico di risolvere problemi con enunciato matematico complessi, che richiedono ragionamento, risoluzione di problemi a più passaggi e comprensione di concetti matematici.

Zero-shot

ARC-e

Il benchmark ARC-e verifica le capacità avanzate di risposta alle domande di un modello linguistico con domande di scienza a scelta multipla autentiche a livello di scuola elementare.

Zero-shot

PIQA

Il benchmark PIQA testa la capacità di un modello linguistico di comprendere e applicare la conoscenza fisica di buon senso rispondendo a domande sulle interazioni fisiche quotidiane.

Zero-shot

SIQA

Il benchmark SIQA valuta la comprensione delle interazioni sociali e del buon senso sociale da parte di un modello linguistico ponendo domande sulle azioni delle persone e sulle loro implicazioni sociali.

Zero-shot

Boolq

Il benchmark BoolQ verifica la capacità di un modello linguistico di rispondere a domande di tipo sì/no che si verificano naturalmente, testando la capacità dei modelli di svolgere attività di inferenza del linguaggio naturale reali.

5 scatti

TriviaQA

Il benchmark TriviaQA valuta le competenze di comprensione della lettura con triplette di domande, risposte ed evidenze.

5 scatti

NQ

Il benchmark NQ (Natural Questions) verifica la capacità di un modello linguistico di trovare e comprendere le risposte all'interno di interi articoli di Wikipedia, simulando scenari di risposta alle domande reali.

pass@1

HumanEval

Il benchmark HumanEval testa le capacità di generazione di codice di un modello linguistico valutando se le sue soluzioni superano i test delle unità funzionali per i problemi di programmazione.

3 scatti

MBPP

Il benchmark MBPP testa la capacità di un modello linguistico di risolvere problemi di programmazione di base in Python, concentrandosi sui concetti di programmazione fondamentali e sull'utilizzo della libreria standard.

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma 1

2,5 miliardi

42,3

Gemma 2

2,6 MLD

51,3

Mistral

7 miliardi

62,5

LLAMA 3

8 miliardi

66,6

Gemma 1

7 miliardi

64,4

Gemma 2

Oltre 9 miliardi

71,3

Gemma 2

27 mld

75,2

Gemma 1

2,5 miliardi

48,5

Gemma 2

2,6 MLD

55,4

Mistral

7 miliardi

60.5

LLAMA 3

8 miliardi

59,2

Gemma 1

7 miliardi

61.1

Gemma 2

Oltre 9 miliardi

68,4

Gemma 2

27 mld

71,4

Gemma 1

2,5 miliardi

15.1

Gemma 2

2,6 MLD

23,9

Mistral

7 miliardi

39,6

LLAMA 3

8 miliardi

45,7

Gemma 1

7 miliardi

51,8

Gemma 2

Oltre 9 miliardi

68,6

Gemma 2

27 mld

74,0

Gemma 1

2,5 miliardi

24,2

Gemma 2

2,6 MLD

30,6

Mistral

7 miliardi

44,0

LLAMA 3

8 miliardi

45,9

Gemma 1

7 miliardi

44,9

Gemma 2

Oltre 9 miliardi

52,8

Gemma 2

27 mld

55.1

Gemma 1

2,5 miliardi

35.2

Gemma 2

2,6 MLD

41,9

Mistral

7 miliardi

56,0

LLAMA 3

8 miliardi

61.1

Gemma 1

7 miliardi

59,0

Gemma 2

Oltre 9 miliardi

68,2

Gemma 2

27 mld

74,9

Gemma 1

2,5 miliardi

48,5

Gemma 2

2,6 MLD

52,0

Mistral

7 miliardi

63,8

LLAMA 3

8 miliardi

58,4

Gemma 1

7 miliardi

56,3

Gemma 2

Oltre 9 miliardi

69,4

Gemma 2

27 mld

74,2

Gemma 1

2,5 miliardi

66,8

Gemma 2

2,6 MLD

70,9

Mistral

7 miliardi

78,5

LLAMA 3

8 miliardi

76,1

Gemma 1

7 miliardi

79,0

Gemma 2

Oltre 9 miliardi

80,6

Gemma 2

27 mld

83,7

Gemma 1

2,5 miliardi

71,7

Gemma 2

2,6 MLD

73,0

Mistral

7 miliardi

83,0

LLAMA 3

8 miliardi

82,0

Gemma 1

7 miliardi

82,3

Gemma 2

Oltre 9 miliardi

81,9

Gemma 2

27 mld

86,4

Gemma 1

2,5 miliardi

11,8

Gemma 2

2,6 MLD

15,0

Mistral

7 miliardi

12,7

Gemma 1

7 miliardi

24,3

Gemma 2

Oltre 9 miliardi

36,6

Gemma 2

27 mld

42,3

Gemma 1

2,5 miliardi

73,2

Gemma 2

2,6 MLD

80,1

Mistral

7 miliardi

80,5

Gemma 1

7 miliardi

81,5

Gemma 2

Oltre 9 miliardi

88,0

Gemma 2

27 mld

88,6

Gemma 1

2,5 miliardi

77,3

Gemma 2

2,6 MLD

77,8

Mistral

7 miliardi

82,2

Gemma 1

7 miliardi

81,2

Gemma 2

Oltre 9 miliardi

81,7

Gemma 2

27 mld

83,2

Gemma 1

2,5 miliardi

49,7

Gemma 2

2,6 MLD

51,9

Mistral

7 miliardi

47,0

Gemma 1

7 miliardi

51,8

Gemma 2

Oltre 9 miliardi

53,4

Gemma 2

27 mld

53,7

Gemma 1

2,5 miliardi

69,4

Gemma 2

2,6 MLD

72,5

Mistral

7 miliardi

83,2

Gemma 1

7 miliardi

83,2

Gemma 2

Oltre 9 miliardi

84,2

Gemma 2

27 mld

84,8

Gemma 1

2,5 miliardi

53,2

Gemma 2

2,6 MLD

59,4

Mistral

7 miliardi

62,5

Gemma 1

7 miliardi

63,4

Gemma 2

Oltre 9 miliardi

76,6

Gemma 2

27 mld

83,7

Gemma 1

2,5 miliardi

12,5

Gemma 2

2,6 MLD

16,7

Mistral

7 miliardi

23.2

Gemma 1

7 miliardi

23,0

Gemma 2

Oltre 9 miliardi

29,2

Gemma 2

27 mld

34,5

Gemma 1

2,5 miliardi

22.0

Gemma 2

2,6 MLD

17,7

Mistral

7 miliardi

26,2

Gemma 1

7 miliardi

32,3

Gemma 2

Oltre 9 miliardi

40,2

Gemma 2

27 mld

51,8

Gemma 1

2,5 miliardi

29,2

Gemma 2

2,6 MLD

29,6

Mistral

7 miliardi

40,2

Gemma 1

7 miliardi

44,4

Gemma 2

Oltre 9 miliardi

52,4

Gemma 2

27 mld

62,6

*Questi sono i benchmark per i modelli preaddestrati. Consulta il report tecnico per informazioni dettagliate sul rendimento con altre metodologie.

PaliGemma 2 Novità

PaliGemma 2 offre ai modelli linguistici Gemma 2 funzionalità di visione facilmente ottimizzabili, consentendo un'ampia gamma di applicazioni che combinano la comprensione di testo e immagini.

DataGemma

DataGemma sono i primi modelli aperti progettati per collegare gli LLM a una vasta gamma di dati del mondo reale provenienti da Data Commons di Google.

Ambito Gemma

Gemma Scope offre ai ricercatori una trasparenza senza precedenti nei processi decisionali dei nostri modelli Gemma 2.

Deployment modelli

Scegli il target di deployment

Icona Esegui il deployment mobileDispositivo mobile

Esegui il deployment on-device con Google AI Edge

Esegui il deployment direttamente sui dispositivi per una funzionalità offline a bassa latenza. Ideale per applicazioni che richiedono reattività e privacy in tempo reale, come app mobile, dispositivi IoT e sistemi embedded.

Icona webWeb

Integrazione perfetta nelle applicazioni web

Migliora i tuoi siti web e servizi web con funzionalità di IA avanzate, attivando funzionalità interattive, contenuti personalizzati e automazione intelligente.

Icona CloudCloud

Scalabilità senza problemi con l'infrastruttura cloud

Sfrutta la scalabilità e la flessibilità del cloud per gestire implementazioni su larga scala, carichi di lavoro impegnativi e applicazioni di IA complesse.

Sbloccare la comunicazione globale

Partecipa al nostro concorso Kaggle a livello mondiale. Creare varianti del modello Gemma per una lingua specifica o un aspetto culturale unico