Lanzamos el Gemma 3n con entrada de audio y optimizado para su uso en dispositivos cotidianos. Más información

Se usó la API de Cloud Translation para traducir esta página.

Descripción general del modelo Gemma 3

Gemma es una familia de modelos de inteligencia artificial (IA) generativa que puedes usar en una amplia variedad de tareas de generación, como la respuesta a preguntas, el resumen y el razonamiento. Los modelos de Gemma se proporcionan con pesos abiertos y permiten un uso comercial responsable, lo que te permite ajustarlos y, luego, implementarlos en tus propios proyectos y aplicaciones.

La versión de Gemma 3 incluye las siguientes funciones clave. Pruébala en AI Studio:

Entrada de imágenes y texto: Las capacidades multimodales te permiten ingresar imágenes y texto para comprender y analizar datos visuales. Comienza a compilar
Contexto de tokens de 128K: Es un contexto de entrada 16 veces más grande para analizar más datos y resolver problemas más complejos.
Llamadas a funciones: Compila interfaces de lenguaje natural para trabajar con interfaces de programación. Comienza a compilar
Compatibilidad con varios idiomas: Trabaja en tu idioma o expande las capacidades de idioma de tu aplicación de IA con compatibilidad con más de 140 idiomas. Comienza a compilar
Tamaños de modelos amigables para desarrolladores: Elige un tamaño de modelo (1,000 millones, 4,000 millones, 12,000 millones, 27,000 millones) y un nivel de precisión que funcione mejor para tu tarea y recursos de procesamiento.

Puedes descargar modelos de Gemma 3 desde Kaggle y Hugging Face. Para obtener más detalles técnicos sobre Gemma 3, consulta la tarjeta de modelo y el informe técnico. Las versiones anteriores de los modelos principales de Gemma también están disponibles para descargar. Para obtener más información, consulta Modelos de Gemma anteriores.

Probar Gemma 3 Obtener en Kaggle Obtener en Hugging Face

Entrada multimodal de imágenes y texto

Puedes abordar tareas de generación y análisis más complejas con Gemma 3 gracias a su capacidad para manejar datos de imágenes y texto. Puedes usar el modelo para interpretar datos de imagen, identificar objetos, extraer datos de texto y completar muchas otras tareas de entrada visual a salida de texto. A construir

Ventana de contexto de 128,000 tokens

Los modelos de Gemma 3 pueden controlar entradas de instrucciones de hasta 128,000 tokens, una ventana de contexto 16 veces más grande que los modelos de Gemma anteriores. La gran cantidad de tokens significa que puedes procesar varios artículos de varias páginas, artículos individuales más grandes o cientos de imágenes en una sola instrucción.

Compatibilidad con varios idiomas

Trabaja en tu idioma con la compatibilidad integrada para más de 140 idiomas. Gemma 3 se entrenó para admitir una gran cantidad de idiomas en comparación con versiones anteriores de Gemma, lo que te permite realizar más tareas visuales y de texto en los idiomas que usan tus clientes. A construir

Llamada a función

Compila controles inteligentes de lenguaje natural para interfaces de programación. Gemma 3 te permite definir funciones de programación con sintaxis y restricciones específicas, y el modelo puede llamar a estas funciones para completar tareas. A construir

Tamaños de parámetros y cuantificación

Los modelos de Gemma 3 están disponibles en 4 tamaños de parámetros en 5 niveles de precisión, desde la precisión completa en 32 bits hasta la precisión más baja en 4 bits. Los diferentes tamaños y precisiones representan un conjunto de compensaciones para tu aplicación de IA. Los modelos con parámetros y recuentos de bits más altos (mayor precisión) suelen ser más capaces, pero son más costosos de ejecutar en términos de ciclos de procesamiento, costo de memoria y consumo de energía. Los modelos con parámetros y recuentos de bits más bajos (menor precisión) tienen menos capacidades, pero pueden ser suficientes para tu tarea de IA. En la siguiente tabla, se detallan los requisitos aproximados de memoria de GPU o TPU para ejecutar inferencias con cada tamaño de las versiones del modelo Gemma 3.

Parámetros	32 bits completos	BF16 (16 bits)	SFP8 (8 bits)	Q4_0 (4 bits)	INT4 (4 bits)
Gemma 3 1B (solo texto)	4 GB	1.5 GB	1.1 GB	892 MB	861 MB
Gemma 3 4B	16 GB	6.4 GB	4.4 GB	3.4 GB	3.2 GB
Gemma 3 12B	48 GB	20 GB	12.2 GB	8.7 GB	8.2 GB
Gemma 3 27B	108 GB	46.4 GB	29.1 GB	21 GB	19.9 GB

Tabla 1: Es la memoria aproximada de GPU o TPU necesaria para cargar modelos de Gemma 3 según el recuento de parámetros y el nivel de cuantificación (profundidad de bits).

El consumo de memoria aumenta según la cantidad total de tokens necesarios para la instrucción que ejecutas. Cuanto mayor sea la cantidad de tokens necesarios para procesar tu instrucción, mayor será la memoria requerida, además de la memoria necesaria para cargar el modelo.

Modelos de Gemma anteriores

Puedes trabajar con generaciones anteriores de modelos de Gemma, que también están disponibles en Kaggle y Hugging Face. Para obtener más detalles técnicos sobre los modelos de Gemma anteriores, consulta las siguientes páginas de tarjetas de modelo:

Tarjeta de modelo de Gemma 2
Tarjeta de modelo de Gemma 1

¿Estás listo para empezar a realizar compilaciones? Comienza a usar los modelos de Gemma.