Modelos abiertos de Gemma
Una familia de modelos abiertos ligeros y de última generación creados a partir de la misma investigación y tecnología que se usaron para crear los modelos de Gemini
Diseño responsable desde el punto de vista
Estos modelos incorporan medidas de seguridad integrales y ayudan a garantizar soluciones de IA responsables y confiables mediante conjuntos de datos seleccionados y ajustes rigurosos.
Rendimiento inigualable en el tamaño
Los modelos de Gemma logran resultados comparativos excepcionales en sus tamaños de 2B y 7B, incluso superan a algunos modelos abiertos más grandes.
Entorno flexible
Con Keras 3.0, disfruta de una compatibilidad sin interrupciones con JAX, TensorFlow y PyTorch, lo que te permite elegir y cambiar los frameworks sin esfuerzo según la tarea.
Variantes del modelo Gemma
Guías de inicio rápido para desarrolladores
Guías de inicio rápido para socios
Comparativas
Gemma establece un nuevo estándar de rendimiento de tamaño en comparación con modelos populares como Llama 2 y Mistral 7B.
5 tomas, 1 principal
MMLU
Las comparativas de MMLU son una prueba que mide la amplitud del conocimiento y la capacidad de resolución de problemas que adquieren los modelos grandes de lenguaje durante el entrenamiento previo.
Sin ejemplos
HellaSwag
La comparativa de HellaSwag desafía la capacidad de un modelo de lenguaje para comprender y aplicar el razonamiento de sentido común seleccionando el final más lógico para una historia.
Sin ejemplos
PIQA
La comparativa PIQA prueba la capacidad de un modelo de lenguaje para comprender y aplicar el conocimiento físico del sentido común respondiendo preguntas sobre las interacciones físicas cotidianas.
Sin ejemplos
SIQA
La comparativa SIQA evalúa la comprensión de un modelo de lenguaje de las interacciones sociales y el sentido común social haciendo preguntas sobre las acciones de las personas y sus implicaciones sociales.
Sin ejemplos
Boolq
La comparativa BoolQ prueba la capacidad de un modelo de lenguaje para responder preguntas de tipo sí/no naturales (generadas en entornos espontáneos y sin restricciones), y prueba la capacidad del modelo para realizar tareas de inferencia de lenguaje natural en el mundo real.
puntuación parcial
Winogrande
La comparativa de Winogrande prueba la capacidad de un modelo de lenguaje para resolver tareas ambiguas de completar espacios en blanco con opciones binarias, lo que requiere un razonamiento de sentido común generalizado.
7 tomas
CQA
La comparativa de CQA evalúa el rendimiento de los modelos de lenguaje en preguntas de opción múltiple, lo que requiere diferentes tipos de conocimiento de sentido común.
OBQA
La comparativa de la OBQA evalúa la capacidad de un modelo de lenguaje para responder preguntas avanzadas con razonamiento de varios pasos, conocimiento del sentido común y comprensión de texto enriquecido, basados en exámenes de libro abierto.
ARC‐e
La comparativa ARC-e pone a prueba las habilidades avanzadas de respuesta de preguntas de un modelo de lenguaje con preguntas de ciencia de opción múltiple y genuinas de nivel escolar.
ARC‐c
La comparativa de ARC-c es un subconjunto más enfocado del conjunto de datos de ARC-e, que contiene solo preguntas respondidas incorrectamente por algoritmos comunes (base de recuperación y coexistencia de palabras).
5 tomas
TriviaQA
La comparativa de TriviaQA evalúa las habilidades de comprensión lectora con triples de evidencia de pregunta y respuesta.
pase@1
HumanEval
La comparativa de HumanEval pone a prueba las capacidades de generación de código de un modelo de lenguaje evaluando si sus soluciones pasan las pruebas de unidades funcionales para problemas de programación.
3 tomas
MBPP
Las comparativas de MBPP ponen a prueba la capacidad de un modelo de lenguaje para resolver problemas de programación básicos de Python, con un enfoque en los conceptos fundamentales de la programación y el uso estándar de la biblioteca.
maj@1
GSM8K
La comparativa GSM8K prueba la capacidad de un modelo de lenguaje para resolver problemas matemáticos de nivel primario que suelen requerir varios pasos de razonamiento.
4 tomas
MATH
La comparativa MATH evalúa la capacidad de un modelo de lenguaje para resolver problemas verbales complejos de palabras, que requieren razonamiento, resolución de problemas de varios pasos y la comprensión de conceptos matemáticos.
AGIEval
La comparativa de AGIEval pone a prueba la inteligencia general de un modelo de lenguaje mediante preguntas derivadas de exámenes del mundo real diseñados para evaluar las capacidades intelectuales humanas (exámenes de ingreso universitarios, exámenes de derecho, etc.).
BBH
La comparativa BBH (BIG-Bench Hard) se enfoca en tareas que se consideran más allá de las capacidades de los modelos de lenguaje actuales y prueban sus límites en varios dominios de razonamiento y comprensión.
100%
75%
50%
25%
0%
100%
75%
50%
25%
0%
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
13b
LLAMA-2
7b
*Consulte el informe técnico para obtener detalles sobre el rendimiento con otras metodologías.
Accede a Gemma hoy mismo
Los modelos de Gemma están disponibles en todos tus centros de modelos favoritos.
Desarrollo de la IA responsable
Responsabilidad desde el diseño
Previamente entrenados con datos cuidadosamente seleccionados y ajustados para la seguridad además, lo que ayuda a potenciar el desarrollo seguro y responsable de la IA basado en modelos de Gemma.
Evaluación sólida y transparente
Las evaluaciones integrales y los informes transparentes revelan las limitaciones del modelo para adoptar un enfoque responsable en cada caso de uso.
Impulsamos el desarrollo responsable
El kit de herramientas de IA generativa responsable ayuda a los desarrolladores a diseñar e implementar las prácticas recomendadas de la IA responsable.
Optimizado para Google Cloud
Con los modelos de Gemma en Google Cloud, puedes personalizar en profundidad el modelo según tus necesidades específicas con las herramientas completamente administradas de Vertex AI o la opción autoadministrada de GKE y, luego, implementarlo en una infraestructura flexible, rentable y optimizada para la IA.
Acelera la investigación académica con los créditos de Google Cloud
Recientemente, el Programa de Investigación Académica concluyó el período de postulación y otorgó créditos de Google Cloud para apoyar a los investigadores que amplían los límites del descubrimiento científico usando modelos Gemma. Nos entusiasma ver la investigación revolucionaria que surge de esta iniciativa.
Unirse a la comunidad
Conéctate, explora y comparte tus conocimientos con otros miembros de la comunidad de modelos de AA.