Modelli aperti di Gemma

Una famiglia di modelli aperti, leggeri e all'avanguardia basati sulla stessa ricerca e tecnologia utilizzate per creare i modelli Gemini

Logo Gemma Models

Responsabile per definizione

Incorporando misure di sicurezza complete, questi modelli aiutano a garantire soluzioni IA responsabili e affidabili attraverso set di dati selezionati e ottimizzazioni rigorose.

Logo Gemma Models

Prestazioni ineguagliabili per le dimensioni

I modelli Gemma ottengono risultati di benchmark eccezionali nelle dimensioni 2B e 7B, superando persino alcuni modelli aperti più grandi.

Logo Gemma Models

Framework flessibile

Keras 3.0 è compatibile con JAX, TensorFlow e PyTorch e consente di scegliere e cambiare facilmente i framework in base alle attività.

Benchmark

Gemma definisce un nuovo standard per prestazioni all’avanguardia per dimensioni rispetto a modelli popolari come Llama 2 e Mistral 7B.

5-colpi, top-1

MMLU

Il benchmark MMLU è un test che misura l'ampiezza delle conoscenze e la capacità di risoluzione dei problemi acquisite dai modelli linguistici di grandi dimensioni durante il preaddestramento.

Tiro 0

HellaSwag

Il benchmark HellaSwag mette in dubbio la capacità di un modello linguistico di comprendere e applicare il ragionamento di buon senso selezionando il finale più logico di una storia.

Tiro 0

PIQA

Il benchmark PIQA testa la capacità di un modello linguistico di comprendere e applicare le conoscenze fisiche del buon senso rispondendo a domande sulle interazioni fisiche quotidiane.

Tiro 0

QA

Il benchmark SIQA valuta la comprensione delle interazioni e del buon senso sociale da parte di un modello linguistico ponendo domande sulle azioni delle persone e sulle loro implicazioni sociali.

Tiro 0

Boolq

Il benchmark BoolQ testa la capacità di un modello linguistico di rispondere a domande sì/no (sì/no) naturali (generate in impostazioni non richieste e non vincolate), testando la capacità del modello di eseguire attività di inferenza del linguaggio naturale nel mondo reale.

punteggio parziale

Winogrande

Il benchmark di Winogrande verifica la capacità di un modello linguistico di risolvere attività ambigue di compilazione del vuoto con opzioni binarie, richiedendo un ragionamento generalizzato del buon senso.

7 tiri

CQA

Il benchmark CQA valuta le prestazioni dei modelli linguistici con domande a scelta multipla, richiedendo diversi tipi di conoscenza del buon senso.

OBQA

Il benchmark OBQA valuta la capacità di un modello linguistico di eseguire risposte avanzate alle domande con ragionamento in più fasi, conoscenza del buon senso e comprensione del testo RTF, modellata dopo esami di libri aperti.

ARC-e

Il benchmark ARC-e verifica le competenze avanzate di risposta alle domande di un modello linguistico con domande scientifiche a scelta multipla del livello scolastico del livello scolastico.

ARC-c

Il benchmark ARC-c è un sottoinsieme più mirato del set di dati ARC-e, contenente solo domande risposte in modo errato da algoritmi comuni (base di recupero e co-occorrenza di parole).

5 tiri

TriviaQA

Il benchmark TriviaQA testa le capacità di comprensione con tripli di domande-risposta e prove.

pass@1

HumanEval

Il benchmark HumanEval testa le capacità di generazione del codice di un modello linguistico valutando se le sue soluzioni superano i test delle unità funzionali per i problemi di programmazione.

3 foto

MBPP

Il benchmark MBPP testa la capacità di un modello linguistico di risolvere problemi di programmazione Python di base, concentrandosi sui concetti fondamentali della programmazione e sull'utilizzo delle librerie standard.

mag@1

GSM8K

Il benchmark GSM8K verifica la capacità di un modello linguistico di risolvere problemi matematici a livello scolastico che spesso richiedono più passaggi di ragionamento.

4-colpi

MATH

Il benchmark MATH valuta la capacità di un modello linguistico di risolvere complessi problemi matematici, richiedendo ragionamento, risoluzione di problemi in più fasi e la comprensione di concetti matematici.

AGIEval

Il benchmark AGIEval testa l'intelligence generale di un modello linguistico utilizzando domande derivate da esami del mondo reale progettati per valutare le capacità intellettuali umane (esami di ammissione al college, esami di legge e così via).

B&B

Il benchmark BBH (BIG-Bench Hard) si concentra sulle attività considerate al di là delle capacità degli attuali modelli linguistici, testando i loro limiti in vari ambiti di ragionamento e comprensione.

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

7b

64,3

Gemma

2b

42,3

Mistral

7b

62,5

LLAMA-2

13b

54,8

LLAMA-2

7b

45,3

Gemma

7b

81,2

Gemma

2b

71,4

Mistral

7b

81,0

LLAMA-2

13b

80,7

LLAMA-2

7b

77,2

Gemma

7b

81,2

Gemma

2b

77,3

Mistral

7b

82,2

LLAMA-2

13b

80,5

LLAMA-2

7b

78,8

Gemma

7b

51,8

Gemma

2b

49,7

Mistral

7b

47,0*

LLAMA-2

13b

50,3

LLAMA-2

7b

48,3

Gemma

7b

83,2

Gemma

2b

69,42

Mistral

7b

83,2*

LLAMA-2

13b

81,7

LLAMA-2

7b

77,4

Gemma

7b

72,3

Gemma

2b

65,4

Mistral

7b

74,2

LLAMA-2

13b

72,8

LLAMA-2

7b

69,2

Gemma

7b

71,3

Gemma

2b

65,3

Mistral

7b

66,3*

LLAMA-2

13b

67,3

LLAMA-2

7b

57,8

Gemma

7b

52,8

Gemma

2b

47,8

Mistral

7b

52,2

LLAMA-2

13b

57,0

LLAMA-2

7b

58,6

Gemma

7b

81,5

Gemma

2b

73,2

Mistral

7b

80,5

LLAMA-2

13b

77,3

LLAMA-2

7b

75,2

Gemma

7b

53,2

Gemma

2b

42,06

Mistral

7b

54,9

LLAMA-2

13b

49,4

LLAMA-2

7b

45,9

Gemma

7b

63,4

Gemma

2b

53,2

Mistral

7b

62,5

LLAMA-2

13b

79,6

LLAMA-2

7b

72,1

Gemma

7b

32,3

Gemma

2b

22.0

Mistral

7b

26,2

LLAMA-2

13b

18,3

LLAMA-2

7b

12,8

Gemma

7b

44,4

Gemma

2b

29,2

Mistral

7b

40,2*

LLAMA-2

13b

30,6

LLAMA-2

7b

20,8

Gemma

7b

46,4

Gemma

2b

17,7

Mistral

7b

35,4*

LLAMA-2

13b

28,7

LLAMA-2

7b

14.6

Gemma

7b

24,3

Gemma

2b

11,8

Mistral

7b

12,7

LLAMA-2

13b

3,9

LLAMA-2

7b

2.5

Gemma

7b

41,7

Gemma

2b

24,2

Mistral

7b

41,2*

LLAMA-2

13b

39,1

LLAMA-2

7b

29,3

Gemma

7b

55,1

Gemma

2b

35,2

Mistral

7b

56,1*

LLAMA-2

13b

39,4

LLAMA-2

7b

32,6

*Consulta il report tecnico per maggiori dettagli sul rendimento con altre metodologie

Sviluppo di un'IA responsabile

Responsabilità per progettazione

Preaddestrati su dati attentamente selezionati e ottimizzati per la sicurezza in alto, contribuendo a potenziare lo sviluppo di un'IA sicura e responsabile basata sui modelli Gemma.

Valutazione solida e trasparente

Valutazioni complete e report trasparenti rivelano i limiti del modello per adottare un approccio responsabile per ogni caso d'uso.

Favorire uno sviluppo responsabile

Il toolkit per l'IA generativa responsabile aiuta gli sviluppatori a progettare e implementare best practice per l'IA responsabile.

Icona Google Cloud

Ottimizzato per Google Cloud

Con i modelli Gemma su Google Cloud, puoi personalizzare profondamente il modello in base alle tue esigenze specifiche con gli strumenti completamente gestiti di Vertex AI o l'opzione autogestita di GKE ed eseguirne il deployment su un'infrastruttura flessibile ed economica ottimizzata per l'IA.

Accelerare la ricerca accademica con i crediti Google Cloud

Il programma di ricerca accademica ha recentemente concluso il periodo di presentazione della domanda, assegnando crediti Google Cloud per supportare i ricercatori che si spingeranno oltre i confini della scoperta scientifica utilizzando i modelli Gemma. Siamo entusiasti di vedere la rivoluzionaria ricerca che emerge da questa iniziativa.

Continua a seguirci per non perderti le opportunità future per migliorare la tua ricerca con Google Cloud.

Unisciti alla community

Connettiti, esplora e condividi le tue conoscenze con gli altri nella community dei modelli ML.