Modelli aperti Gemma

Una famiglia di modelli aperti leggeri e all'avanguardia creati sulla base della stessa ricerca e tecnologia impiegata per creare i modelli Gemini.

Logo Gemma Models

Responsabile "by design"

Incorporando misure di sicurezza complete, questi modelli aiutano a garantire soluzioni di IA responsabili e affidabili attraverso set di dati selezionati e messa a punto rigorosa.

Logo Gemma Models

Prestazioni senza pari in termini di dimensioni

I modelli Gemma ottengono risultati di benchmark eccezionali per le dimensioni 2B e 7B, superando addirittura le prestazioni di alcuni modelli aperti più grandi.

Logo Gemma Models

Framework flessibile

Keras 3.0 ti offre una compatibilità perfetta con JAX, TensorFlow e PyTorch, in modo da poter scegliere e cambiare facilmente i framework in base alle tue attività.

Benchmark

Gemma fissa un nuovo livello di prestazioni all'avanguardia in termini di dimensioni rispetto ai modelli popolari come Llama 2 e Mistral 7B.

5 scatti, primo 1

MMLU

Il benchmark MMLU è un test che misura l'ampiezza della conoscenza e la capacità di risoluzione dei problemi acquisita dai modelli linguistici di grandi dimensioni (LLM) durante il preaddestramento.

Tiro 0

HellaSwag

Il benchmark HellaSwag sfida la capacità di un modello linguistico di comprendere e applicare il ragionamento del buon senso selezionando il finale più logico di una storia.

Tiro 0

PIQA

Il benchmark PIQA verifica la capacità di un modello linguistico di comprendere e applicare le conoscenze del buon senso fisico rispondendo a domande sulle interazioni fisiche quotidiane.

Tiro 0

SIQA

Il benchmark SIQA valuta la comprensione delle interazioni sociali e del buon senso sociale da parte di un modello linguistico, ponendo domande sulle azioni delle persone e sulle loro implicazioni sociali.

Tiro 0

Boolq

Il benchmark BoolQ verifica la capacità di un modello linguistico di rispondere a domande sì/no che si verificano in modo naturale (generate in contesti senza prompt e senza vincoli), testando la capacità dei modelli di svolgere attività reali di inferenza del linguaggio naturale.

punteggio parziale

Winogrande

Il benchmark di Winogrande verifica la capacità di un modello linguistico di risolvere attività ambigue di riempimento vuoto con opzioni binarie, che richiedono un ragionamento di buon senso generalizzato.

Tiri a 7 tiri

CQA

Il CQA benchmark valuta le prestazioni dei modelli linguistici sulla risposta a domande a scelta multipla, richiedendo diversi tipi di conoscenza del buon senso.

OBQA

Il benchmark OBQA valuta la capacità di un modello linguistico di eseguire risposte avanzate a domande con ragionamento in più passaggi, conoscenza del buon senso e comprensione RTF, modellata sulla base di esami in libri aperti.

ARC-e

Il benchmark ARC-e verifica le capacità avanzate di risposta alle domande di un modello linguistico con domande scientifiche a scelta multipla di livello scolastico autentico.

ARC

Il benchmark ARC-c è un sottoinsieme più specifico del set di dati ARC-e, contenente solo domande con risposte errate da parte di algoritmi comuni (base di recupero e co-occorrenza delle parole).

5 scatti

TriviaQA

Il benchmark di TriviaQA verifica la capacità di comprensione della lettura con prove di domande-risposta triple.

tessera@1

HumanEval

Il benchmark HumanEval verifica le capacità di generazione del codice di un modello linguistico valutando se le sue soluzioni superano i test delle unità funzionali per problemi di programmazione.

3 scatti

MBPP

Il benchmark MBPP verifica la capacità di un modello linguistico di risolvere problemi di programmazione Python di base, concentrandosi sui concetti fondamentali della programmazione e sull'utilizzo della libreria standard.

marco@1

GSM8K

Il benchmark GSM8K verifica la capacità di un modello linguistico di risolvere problemi matematici a livello di scuola primaria che spesso richiedono più passaggi di ragionamento.

4 scatti

MATH

Il benchmark MATH valuta la capacità di un modello linguistico di risolvere complessi problemi matematici con parole, richiedendo ragionamento, capacità di risolvere problemi in più fasi e comprensione dei concetti matematici.

AGIEval

Il benchmark AGIEval verifica l'intelligenza generale di un modello linguistico utilizzando domande derivate da esami reali studiati per valutare le capacità intellettuali umane (esami di ammissione al college, esami di legge e così via).

BBH

Il benchmark BBH (BIG-Bench Hard) si concentra su attività che vanno oltre le capacità degli attuali modelli linguistici, testando i loro limiti su vari ambiti di ragionamento e comprensione.

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

7b

64,3

Gemma

2b

42,3

Mistral

7b

62,5

LLAMA-2

13 MLD

54,8

LLAMA-2

7b

45,3

Gemma

7b

81,2

Gemma

2b

71,4

Mistral

7b

81,0

LLAMA-2

13 MLD

80,7

LLAMA-2

7b

77,2

Gemma

7b

81,2

Gemma

2b

77,3

Mistral

7b

82,2

LLAMA-2

13 MLD

80,5

LLAMA-2

7b

78,8

Gemma

7b

51,8

Gemma

2b

49,7

Mistral

7b

47,0*

LLAMA-2

13 MLD

50,3

LLAMA-2

7b

48,3

Gemma

7b

83,2

Gemma

2b

69,42

Mistral

7b

83,2*

LLAMA-2

13 MLD

81,7

LLAMA-2

7b

77,4

Gemma

7b

72,3

Gemma

2b

65,4

Mistral

7b

74,2

LLAMA-2

13 MLD

72,8

LLAMA-2

7b

69,2

Gemma

7b

71,3

Gemma

2b

65,3

Mistral

7b

66,3*

LLAMA-2

13 MLD

67,3

LLAMA-2

7b

57,8

Gemma

7b

52,8

Gemma

2b

47,8

Mistral

7b

52,2

LLAMA-2

13 MLD

57,0

LLAMA-2

7b

58,6

Gemma

7b

81,5

Gemma

2b

73,2

Mistral

7b

80,5

LLAMA-2

13 MLD

77,3

LLAMA-2

7b

75,2

Gemma

7b

53,2

Gemma

2b

42,06

Mistral

7b

54,9

LLAMA-2

13 MLD

49,4

LLAMA-2

7b

45,9

Gemma

7b

63,4

Gemma

2b

53,2

Mistral

7b

62,5

LLAMA-2

13 MLD

79,6

LLAMA-2

7b

72,1

Gemma

7b

32,3

Gemma

2b

22.0

Mistral

7b

26,2

LLAMA-2

13 MLD

18,3

LLAMA-2

7b

12,8

Gemma

7b

44,4

Gemma

2b

29,2

Mistral

7b

40,2*

LLAMA-2

13 MLD

30,6

LLAMA-2

7b

20,8

Gemma

7b

46,4

Gemma

2b

17,7

Mistral

7b

35,4*

LLAMA-2

13 MLD

28,7

LLAMA-2

7b

14.6

Gemma

7b

24,3

Gemma

2b

11,8

Mistral

7b

12,7

LLAMA-2

13 MLD

3,9

LLAMA-2

7b

2.5

Gemma

7b

41,7

Gemma

2b

24,2

Mistral

7b

41,2*

LLAMA-2

13 MLD

39,1

LLAMA-2

7b

29,3

Gemma

7b

55,1

Gemma

2b

35,2

Mistral

7b

56,1*

LLAMA-2

13 MLD

39,4

LLAMA-2

7b

32,6

*Consulta il report tecnico per i dettagli sulle prestazioni con altre metodologie

Sviluppo dell'IA responsabile

Responsabilità per progettazione

Preaddestrati su dati accuratamente selezionati e ottimizzati per la sicurezza, contribuendo a rendere possibile uno sviluppo di IA sicuro e responsabile basato sui modelli Gemma.

Valutazione solida e trasparente

Valutazioni complete e report trasparenti rivelano i limiti del modello per adottare un approccio responsabile per ogni caso d'uso.

Favorire lo sviluppo responsabile

Il toolkit per l'IA generativa responsabile supporta gli sviluppatori nella progettazione e nell'implementazione delle best practice per l'IA responsabile.

Icona Google Cloud

Ottimizzato per Google Cloud

Con i modelli Gemma su Google Cloud, puoi personalizzare in modo approfondito il modello in base alle tue esigenze specifiche con gli strumenti completamente gestiti di Vertex AI o l'opzione autogestita di GKE ed eseguirne il deployment in un'infrastruttura flessibile ed economica ottimizzata per l'IA.

Accelerare la ricerca accademica con i crediti Google Cloud

Il programma di ricerca accademica ha recentemente concluso il periodo di candidatura, assegnando crediti Google Cloud per supportare i ricercatori che si spingono oltre i confini della scoperta scientifica utilizzando i modelli Gemma. Siamo entusiasti di vedere la ricerca innovativa che emerge da questa iniziativa.

Continua a seguirci per conoscere le future opportunità di avanzamento della tua ricerca con Google Cloud.

Unisciti alla community

Entra in contatto, esplora e condividi le tue conoscenze con gli altri membri della community dei modelli ML.

Competi per creare il miglior assistente IA per ML engineer

Kaggle sta organizzando una competizione che sfida i partecipanti a utilizzare i modelli Gemma per creare i migliori assistenti IA per attività di ingegneria ML. I vincitori verranno annunciati al Google I/O.

Partecipa alla competizione
Trofeo della competizione di Kaggle