Modelos de Gemma Open

Una familia de modelos abiertos, ligeros y de vanguardia, construidos a partir de la misma investigación y tecnología utilizada para crear los modelos Gemini.

Logotipo de Gemma models

Diseño responsable

Estos modelos incorporan medidas de seguridad integrales que garantizan soluciones de IA responsables y confiables a través de conjuntos de datos seleccionados y ajustes rigurosos.

Logotipo de Gemma models

Rendimiento inigualable en relación con el tamaño

Los modelos de Gemma logran resultados comparativos excepcionales en sus tamaños 2B y 7B, incluso superan a algunos modelos abiertos más grandes.

Logotipo de Gemma models

Framework flexible

Con Keras 3.0, disfruta de una compatibilidad sin interrupciones con JAX, TensorFlow y PyTorch, lo que te da la posibilidad de elegir y cambiar frameworks sin esfuerzo según tu tarea.

Comparativas

Gemma establece un nuevo estándar de rendimiento de vanguardia en cuanto al tamaño en comparación con modelos populares como Llama 2 y Mistral 7B.

5 disparos, 1 superior

MMLU

Las comparativas de MMLU son pruebas que miden la amplitud del conocimiento y la capacidad de resolución de problemas adquiridos por los modelos grandes de lenguaje durante el entrenamiento previo.

0 ejemplos

HellaSwag

La comparativa HellaSwag desafía la capacidad de un modelo de lenguaje para comprender y aplicar el razonamiento de sentido común seleccionando el final más lógico de una historia.

0 ejemplos

PIQA

La comparativa de PIQA prueba la capacidad de un modelo de lenguaje para comprender y aplicar el conocimiento físico de sentido común respondiendo preguntas sobre las interacciones físicas cotidianas.

0 ejemplos

SIQA

La comparativa SIQA evalúa la comprensión de un modelo de lenguaje de las interacciones sociales y el sentido común social haciendo preguntas sobre las acciones de las personas y sus implicaciones sociales.

0 ejemplos

Boolq

La comparativa BoolQ prueba la capacidad de un modelo de lenguaje para responder de forma natural (generadas en entornos no sugeridos y sin limitaciones) a preguntas del tipo sí/no, y prueba la capacidad de los modelos de realizar tareas de inferencia de lenguaje natural del mundo real.

puntuación parcial

Winogrande

La comparativa Winogrande prueba la capacidad de un modelo de lenguaje para resolver tareas ambiguas de espacios en blanco con opciones binarias, que requieren un razonamiento de sentido común generalizado.

7 disparos

CQA

La comparativa de CQA evalúa el rendimiento de los modelos de lenguaje en respuestas de preguntas de opción múltiple, lo que requiere diferentes tipos de conocimiento de sentido común.

OBQA

La comparativa OBQA evalúa la capacidad de un modelo de lenguaje para realizar respuestas avanzadas de preguntas con razonamiento de varios pasos, conocimiento del sentido común y comprensión de texto enriquecido, modelada a partir de exámenes de libros abiertos.

ARC-e

Las comparativas de ARC-e ponen a prueba las habilidades avanzadas de respuesta de preguntas de un modelo de lenguaje con preguntas científicas de opción múltiple a nivel de la escuela primaria.

ARC-c

Las comparativas de ARC-c son un subconjunto más específico del conjunto de datos de ARC-e, que solo contiene preguntas respondidas incorrectamente por algoritmos comunes (de recuperación y coincidencia de palabras).

5 disparos

TriviaQA

La comparativa de TriviaQA pone a prueba las habilidades de comprensión lectora con triples de preguntas, respuestas y evidencias.

pase@1

HumanEval

Las comparativas de HumanEval evalúan las capacidades de generación de código de un modelo de lenguaje evaluando si sus soluciones pasan pruebas de unidades funcionales para problemas de programación.

3 disparos

MBPP

Las comparativas de MBPP prueban la capacidad de un modelo de lenguaje para resolver problemas básicos de programación de Python y se enfocan en los conceptos fundamentales de la programación y el uso de la biblioteca estándar.

maya@1

GSM8K

El benchmark de GSM8K prueba la capacidad de un modelo de lenguaje para resolver problemas matemáticos de nivel escolar que con frecuencia requieren múltiples pasos de razonamiento.

4 disparos

MATH

Las comparativas matemáticas evalúan la capacidad de un modelo de lenguaje para resolver problemas matemáticos complejos, que requieren razonamiento, resolución de problemas de varios pasos y comprensión de conceptos matemáticos.

AGIEval

Las comparativas de AGIEval ponen a prueba la inteligencia general de un modelo de lenguaje mediante preguntas derivadas de exámenes del mundo real diseñados para evaluar las capacidades intelectuales humanas (exámenes de ingreso universitario, exámenes de derecho, etc.).

BBH

La comparativa de BBH (BIG-Bench Hard) se centra en tareas que se consideran más allá de las capacidades de los modelos de lenguaje actuales, probando sus límites en varios dominios de razonamiento y comprensión.

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

7b

64,3

Gemma

2,000 millones

42.3

Mistral

7b

62,5

LLAMA-2

13b

54,8

LLAMA-2

7b

45,3

Gemma

7b

81,2

Gemma

2,000 millones

71,4

Mistral

7b

81,0

LLAMA-2

13b

80,7

LLAMA-2

7b

77,2

Gemma

7b

81,2

Gemma

2,000 millones

77,3

Mistral

7b

82,2

LLAMA-2

13b

80,5

LLAMA-2

7b

78,8

Gemma

7b

51,8

Gemma

2,000 millones

49,7

Mistral

7b

47.0*

LLAMA-2

13b

50,3

LLAMA-2

7b

48,3

Gemma

7b

83,2

Gemma

2,000 millones

69,42

Mistral

7b

83.2*

LLAMA-2

13b

81,7

LLAMA-2

7b

77,4

Gemma

7b

72,3

Gemma

2,000 millones

65,4

Mistral

7b

74,2

LLAMA-2

13b

72,8

LLAMA-2

7b

69.2

Gemma

7b

71,3

Gemma

2,000 millones

65,3

Mistral

7b

66.3*

LLAMA-2

13b

67,3

LLAMA-2

7b

57,8

Gemma

7b

52,8

Gemma

2,000 millones

47,8

Mistral

7b

52,2

LLAMA-2

13b

57,0

LLAMA-2

7b

58,6

Gemma

7b

81.5

Gemma

2,000 millones

73,2

Mistral

7b

80,5

LLAMA-2

13b

77,3

LLAMA-2

7b

75,2

Gemma

7b

53.2

Gemma

2,000 millones

42,06

Mistral

7b

54,9

LLAMA-2

13b

49,4

LLAMA-2

7b

45.9

Gemma

7b

63,4

Gemma

2,000 millones

53.2

Mistral

7b

62,5

LLAMA-2

13b

79.6

LLAMA-2

7b

72,1

Gemma

7b

32,3

Gemma

2,000 millones

22.0

Mistral

7b

26,2

LLAMA-2

13b

18,3

LLAMA-2

7b

12.8

Gemma

7b

44,4

Gemma

2,000 millones

29.2

Mistral

7b

40.2*

LLAMA-2

13b

30.6

LLAMA-2

7b

20,8

Gemma

7b

46,4

Gemma

2,000 millones

17.7

Mistral

7b

35,4*

LLAMA-2

13b

28,7

LLAMA-2

7b

14.6

Gemma

7b

24,3

Gemma

2,000 millones

11.8

Mistral

7b

12.7

LLAMA-2

13b

3.9

LLAMA-2

7b

2.5

Gemma

7b

41,7

Gemma

2,000 millones

24,2

Mistral

7b

41.2*

LLAMA-2

13b

39,1

LLAMA-2

7b

29,3

Gemma

7b

55.1

Gemma

2,000 millones

35,2

Mistral

7b

56.1*

LLAMA-2

13b

39,4

LLAMA-2

7b

32.6

*Consulte el informe técnico para obtener detalles sobre el rendimiento con otras metodologías.

Desarrollo de la IA responsable

Responsabilidad desde el diseño

Previamente entrenados con datos seleccionados cuidadosamente y ajustados para ofrecer seguridad, lo que ayuda a potenciar el desarrollo de IA responsable y seguro basado en modelos de Gemma.

Evaluación sólida y transparente

Las evaluaciones integrales y los informes transparentes revelan las limitaciones del modelo para adoptar un enfoque responsable para cada caso de uso.

Impulsamos el desarrollo responsable

El kit de herramientas para la IA generativa responsable asiste a los desarrolladores en el diseño y la implementación de las prácticas recomendadas de la IA responsable.

Ícono de Google Cloud

Optimizado para Google Cloud

Con los modelos de Gemma en Google Cloud, puedes personalizar completamente el modelo según tus necesidades específicas con las herramientas completamente administradas de Vertex AI o la opción autoadministrada de GKE y, luego, implementarlo en una infraestructura flexible y rentable optimizada para IA.

Aceleración de la investigación académica con créditos de Google Cloud

Avanza en tu investigación con los modelos de Gemma en Google Cloud. Se proporcionarán en conjunto hasta $500,000 en créditos para los costos de uso de TPU y GPU asociados con la investigación. Postúlate ahora para usar los créditos disponibles y, así, desafiar los límites de tus emprendimientos científicos y contribuir al avance de la comunidad de investigación.

Los investigadores seleccionados recibirán créditos de Google Cloud.

Postularse ahora

Unirse a la comunidad

Conéctate, explora y comparte tus conocimientos con otros en la comunidad de modelos de AA.

Compite por crear el mejor asistente de IA para ingenieros de AA

Kaggle organiza una competencia que desafía a los participantes a usar modelos de Gemma para crear los mejores asistentes de IA para tareas de ingeniería de AA. Los ganadores se anunciarán en Google I/O.

Únete a la competencia
Trofeo de competencia de Kaggle