Modelos abiertos de Gemma

Una familia de modelos abiertos ligeros y de última generación creados a partir de la misma investigación y tecnología que se usaron para crear los modelos de Gemini

Logotipo de Modelos Gemma

Diseño responsable desde el punto de vista

Estos modelos incorporan medidas de seguridad integrales y ayudan a garantizar soluciones de IA responsables y confiables mediante conjuntos de datos seleccionados y ajustes rigurosos.

Logotipo de Modelos Gemma

Rendimiento inigualable en el tamaño

Los modelos de Gemma logran resultados comparativos excepcionales en sus tamaños de 2B y 7B, incluso superan a algunos modelos abiertos más grandes.

Logotipo de Modelos Gemma

Entorno flexible

Con Keras 3.0, disfruta de una compatibilidad sin interrupciones con JAX, TensorFlow y PyTorch, lo que te permite elegir y cambiar los frameworks sin esfuerzo según la tarea.

Comparativas

Gemma establece un nuevo estándar de rendimiento de tamaño en comparación con modelos populares como Llama 2 y Mistral 7B.

5 tomas, 1 principal

MMLU

Las comparativas de MMLU son una prueba que mide la amplitud del conocimiento y la capacidad de resolución de problemas que adquieren los modelos grandes de lenguaje durante el entrenamiento previo.

Sin ejemplos

HellaSwag

La comparativa de HellaSwag desafía la capacidad de un modelo de lenguaje para comprender y aplicar el razonamiento de sentido común seleccionando el final más lógico para una historia.

Sin ejemplos

PIQA

La comparativa PIQA prueba la capacidad de un modelo de lenguaje para comprender y aplicar el conocimiento físico del sentido común respondiendo preguntas sobre las interacciones físicas cotidianas.

Sin ejemplos

SIQA

La comparativa SIQA evalúa la comprensión de un modelo de lenguaje de las interacciones sociales y el sentido común social haciendo preguntas sobre las acciones de las personas y sus implicaciones sociales.

Sin ejemplos

Boolq

La comparativa BoolQ prueba la capacidad de un modelo de lenguaje para responder preguntas de tipo sí/no naturales (generadas en entornos espontáneos y sin restricciones), y prueba la capacidad del modelo para realizar tareas de inferencia de lenguaje natural en el mundo real.

puntuación parcial

Winogrande

La comparativa de Winogrande prueba la capacidad de un modelo de lenguaje para resolver tareas ambiguas de completar espacios en blanco con opciones binarias, lo que requiere un razonamiento de sentido común generalizado.

7 tomas

CQA

La comparativa de CQA evalúa el rendimiento de los modelos de lenguaje en preguntas de opción múltiple, lo que requiere diferentes tipos de conocimiento de sentido común.

OBQA

La comparativa de la OBQA evalúa la capacidad de un modelo de lenguaje para responder preguntas avanzadas con razonamiento de varios pasos, conocimiento del sentido común y comprensión de texto enriquecido, basados en exámenes de libro abierto.

ARC‐e

La comparativa ARC-e pone a prueba las habilidades avanzadas de respuesta de preguntas de un modelo de lenguaje con preguntas de ciencia de opción múltiple y genuinas de nivel escolar.

ARC‐c

La comparativa de ARC-c es un subconjunto más enfocado del conjunto de datos de ARC-e, que contiene solo preguntas respondidas incorrectamente por algoritmos comunes (base de recuperación y coexistencia de palabras).

5 tomas

TriviaQA

La comparativa de TriviaQA evalúa las habilidades de comprensión lectora con triples de evidencia de pregunta y respuesta.

pase@1

HumanEval

La comparativa de HumanEval pone a prueba las capacidades de generación de código de un modelo de lenguaje evaluando si sus soluciones pasan las pruebas de unidades funcionales para problemas de programación.

3 tomas

MBPP

Las comparativas de MBPP ponen a prueba la capacidad de un modelo de lenguaje para resolver problemas de programación básicos de Python, con un enfoque en los conceptos fundamentales de la programación y el uso estándar de la biblioteca.

maj@1

GSM8K

La comparativa GSM8K prueba la capacidad de un modelo de lenguaje para resolver problemas matemáticos de nivel primario que suelen requerir varios pasos de razonamiento.

4 tomas

MATH

La comparativa MATH evalúa la capacidad de un modelo de lenguaje para resolver problemas verbales complejos de palabras, que requieren razonamiento, resolución de problemas de varios pasos y la comprensión de conceptos matemáticos.

AGIEval

La comparativa de AGIEval pone a prueba la inteligencia general de un modelo de lenguaje mediante preguntas derivadas de exámenes del mundo real diseñados para evaluar las capacidades intelectuales humanas (exámenes de ingreso universitarios, exámenes de derecho, etc.).

BBH

La comparativa BBH (BIG-Bench Hard) se enfoca en tareas que se consideran más allá de las capacidades de los modelos de lenguaje actuales y prueban sus límites en varios dominios de razonamiento y comprensión.

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

7b

64,3

Gemma

2b

42.3

Mistral

7b

62.5

LLAMA-2

13b

54,8

LLAMA-2

7b

45,3

Gemma

7b

81,2

Gemma

2b

71,4

Mistral

7b

81,0

LLAMA-2

13b

80,7

LLAMA-2

7b

77.2

Gemma

7b

81,2

Gemma

2b

77,3

Mistral

7b

82,2

LLAMA-2

13b

80,5

LLAMA-2

7b

78.8

Gemma

7b

51.8

Gemma

2b

49,7

Mistral

7b

47,0*

LLAMA-2

13b

50,3

LLAMA-2

7b

48,3

Gemma

7b

83,2

Gemma

2b

69,42

Mistral

7b

83.2*

LLAMA-2

13b

81,7

LLAMA-2

7b

77.4

Gemma

7b

72.3

Gemma

2b

65,4

Mistral

7b

74,2

LLAMA-2

13b

72.8

LLAMA-2

7b

69.2

Gemma

7b

71,3

Gemma

2b

65,3

Mistral

7b

66.3*

LLAMA-2

13b

67.3

LLAMA-2

7b

57.8

Gemma

7b

52.8

Gemma

2b

47.8

Mistral

7b

52.2

LLAMA-2

13b

57,0

LLAMA-2

7b

58,6

Gemma

7b

81.5

Gemma

2b

73.2

Mistral

7b

80,5

LLAMA-2

13b

77,3

LLAMA-2

7b

75,2

Gemma

7b

53.2

Gemma

2b

42/06

Mistral

7b

54.9

LLAMA-2

13b

49,4

LLAMA-2

7b

45.9

Gemma

7b

63,4

Gemma

2b

53.2

Mistral

7b

62.5

LLAMA-2

13b

79.6

LLAMA-2

7b

72.1

Gemma

7b

32,3

Gemma

2b

22.0

Mistral

7b

26,2

LLAMA-2

13b

18,3

LLAMA-2

7b

12.8

Gemma

7b

44,4

Gemma

2b

29.2

Mistral

7b

40.2*

LLAMA-2

13b

30.6

LLAMA-2

7b

20,8

Gemma

7b

46,4

Gemma

2b

17.7

Mistral

7b

35.4*

LLAMA-2

13b

28,7

LLAMA-2

7b

14.6

Gemma

7b

24,3

Gemma

2b

11.8

Mistral

7b

12.7

LLAMA-2

13b

3.9

LLAMA-2

7b

2.5

Gemma

7b

41,7

Gemma

2b

24.2

Mistral

7b

41.2*

LLAMA-2

13b

39,1

LLAMA-2

7b

29,3

Gemma

7b

55.1

Gemma

2b

35,2

Mistral

7b

56.1*

LLAMA-2

13b

39,4

LLAMA-2

7b

32.6

*Consulte el informe técnico para obtener detalles sobre el rendimiento con otras metodologías.

Desarrollo de la IA responsable

Responsabilidad desde el diseño

Previamente entrenados con datos cuidadosamente seleccionados y ajustados para la seguridad además, lo que ayuda a potenciar el desarrollo seguro y responsable de la IA basado en modelos de Gemma.

Evaluación sólida y transparente

Las evaluaciones integrales y los informes transparentes revelan las limitaciones del modelo para adoptar un enfoque responsable en cada caso de uso.

Impulsamos el desarrollo responsable

El kit de herramientas de IA generativa responsable ayuda a los desarrolladores a diseñar e implementar las prácticas recomendadas de la IA responsable.

Ícono de Google Cloud

Optimizado para Google Cloud

Con los modelos de Gemma en Google Cloud, puedes personalizar en profundidad el modelo según tus necesidades específicas con las herramientas completamente administradas de Vertex AI o la opción autoadministrada de GKE y, luego, implementarlo en una infraestructura flexible, rentable y optimizada para la IA.

Acelera la investigación académica con los créditos de Google Cloud

Recientemente, el Programa de Investigación Académica concluyó el período de postulación y otorgó créditos de Google Cloud para apoyar a los investigadores que amplían los límites del descubrimiento científico usando modelos Gemma. Nos entusiasma ver la investigación revolucionaria que surge de esta iniciativa.

No te pierdas las próximas oportunidades para hacer avanzar tu investigación con Google Cloud.

Unirse a la comunidad

Conéctate, explora y comparte tus conocimientos con otros miembros de la comunidad de modelos de AA.