Ejecuta la generación de contenido y las inferencias de Gemma

Hay dos decisiones clave que debes tomar cuando quieras ejecutar un modelo de Gemma: 1) qué variante de Gemma quieres ejecutar y 2) qué marco de ejecución de IA usarás para ejecutarla. Un problema clave para tomar ambas decisiones tiene que ver con el hardware que tú y tus usuarios tienen disponible para ejecutar el modelo.

Esta descripción general te ayuda a tomar estas decisiones y comenzar a trabajar con los modelos de Gemma. Los pasos generales para ejecutar un modelo de Gemma son los siguientes:

Elige un marco

Los modelos de Gemma son compatibles con una amplia variedad de herramientas del ecosistema. Elegir la adecuada depende del hardware disponible (GPU de la nube o laptop local) y de tu preferencia de interfaz (código de Python o aplicación de escritorio).

Usa la siguiente tabla para identificar rápidamente la mejor herramienta para tus necesidades:

If you want to... Recommended Framework Ideal para
Ejecutar de forma local con una IU de chat - LM Studio
- Ollama
Principiantes o usuarios que desean una experiencia similar a Gemini en su laptop
Ejecutar de manera eficiente en el perímetro - LiteRT-LM
- llama.cpp
- API de inferencia de LLM de MediaPipe
- MLX
Inferencia local de alto rendimiento con recursos mínimos
Compilar o entrenar en Python - Biblioteca de Gemma para JAX
- Transformers de Hugging Face
- Keras
- PyTorch
- Unsloth
Investigadores y desarrolladores que compilan aplicaciones personalizadas o ajustan modelos
Implementar en producción o en la empresa - Google Cloud Kubernetes Engine (GKE)
- Google Cloud Run
- Vertex AI
- vLLM
Implementación escalable y administrada en la nube con seguridad empresarial y compatibilidad con MLOps

Detalles del marco

Las siguientes son guías para ejecutar modelos de Gemma categorizados por tu entorno de implementación.

1. Inferencia local y de escritorio (alta eficiencia)

Estas herramientas te permiten ejecutar Gemma en hardware de consumo (laptops, computadoras de escritorio) mediante el uso de formatos optimizados (como GGUF) o aceleradores de hardware específicos.

2. Desarrollo en Python (investigación y ajuste)

Marcos estándar para desarrolladores de IA que compilan aplicaciones, canalizaciones o modelos de entrenamiento.

3. Implementación perimetral y para dispositivos móviles (en el dispositivo)

Marcos diseñados para ejecutar LLM directamente en dispositivos de usuario (Android, iOS, Web) sin conectividad a Internet, que suelen utilizar NPU (unidades de procesamiento neuronal).

4. Implementación en la nube y en producción

Servicios administrados para escalar tu aplicación a miles de usuarios o acceder a una gran potencia de procesamiento.

Asegúrate de que el formato del modelo de Gemma de implementación deseado, como el formato integrado de Keras, Safetensors o GGUF, sea compatible con el marco elegido.

Selecciona una variante de Gemma

Los modelos de Gemma están disponibles en varias variantes y tamaños, incluidos los modelos de Gemma básicos o principales, y variantes de modelos más especializadas, como PaliGemma y DataGemma, y muchas variantes creadas por la comunidad de desarrolladores de IA en sitios como Kaggle y Hugging Face. Si no estás seguro de con qué variante debes comenzar, selecciona el modelo de Gemma básico más reciente ajustado por instrucciones (IT) con la menor cantidad de parámetros. Este tipo de modelo de Gemma tiene requisitos de procesamiento bajos y puede responder a una amplia variedad de instrucciones sin requerir desarrollo adicional.

Ten en cuenta los siguientes factores cuando elijas una variante de Gemma:

  • Gemma básico y otras familias de variantes, como PaliGemma y CodeGemma: Se recomienda Gemma (básico). Las variantes de Gemma más allá de la versión básica tienen la misma arquitectura que el modelo básico y se entrenan para tener un mejor rendimiento en tareas específicas. A menos que tu aplicación o tus objetivos se alineen con la especialización de una variante específica de Gemma, es mejor comenzar con un modelo de Gemma básico.
  • Ajustado por instrucciones (IT), previamente entrenado (PT), ajustado (FT) y mixto (mix): Se recomienda IT.
    • Las variantes de Gemma ajustadas por instrucciones (IT) son modelos que se entrenaron para responder a una variedad de instrucciones o solicitudes en lenguaje humano. Estas variantes de modelos son el mejor lugar para comenzar, ya que pueden responder a instrucciones sin más entrenamiento del modelo.
    • Las variantes de Gemma previamente entrenadas (PT) son modelos que se entrenaron para realizar inferencias sobre el lenguaje o cualquier otro dato, pero no se entrenaron para seguir instrucciones humanas. Estos modelos requieren entrenamiento o ajuste adicionales para poder realizar tareas de manera eficaz y están destinados a investigadores o desarrolladores que desean estudiar o desarrollar las capacidades del modelo y su arquitectura.
    • Las variantes de Gemma ajustadas (FT) se pueden considerar variantes de IT, pero suelen entrenarse para realizar una tarea específica o tener un buen rendimiento en una comparativa específica de IA generativa. La familia de variantes de PaliGemma incluye varias variantes de FT.
    • Las variantes de Gemma mixtas (mix) son versiones de modelos de PaliGemma que se ajustaron por instrucciones con una variedad de instrucciones y son adecuadas para el uso general.
  • Parámetros: Se recomienda la menor cantidad disponible. En general, cuanto más parámetros tenga un modelo, más capaz será. Sin embargo, ejecutar modelos más grandes requiere recursos de procesamiento más grandes y complejos, y, por lo general, ralentiza el desarrollo de una aplicación de IA. A menos que ya hayas determinado que un modelo de Gemma más pequeño no puede satisfacer tus necesidades, elige uno con una pequeña cantidad de parámetros.
  • Niveles de cuantización: Se recomienda la precisión media (16 bits), excepto para el ajuste. La cuantización es un tema complejo que se reduce al tamaño y la precisión de los datos y, por lo tanto, a la cantidad de memoria que usa un modelo de IA generativa para los cálculos y la generación de respuestas. Después de que se entrena un modelo con datos de alta precisión, que suelen ser datos de punto flotante de 32 bits, los modelos como Gemma se pueden modificar para usar datos de menor precisión, como tamaños de 16, 8 o 4 bits. Estos modelos de Gemma cuantizados aún pueden tener un buen rendimiento, según la complejidad de las tareas, mientras usan muchos menos recursos de procesamiento y memoria. Sin embargo, las herramientas para ajustar modelos cuantizados son limitadas y es posible que no estén disponibles en el marco de desarrollo de IA elegido. Por lo general, debes ajustar un modelo como Gemma con precisión completa y, luego, cuantizar el modelo resultante.

Para obtener una lista de los modelos de Gemma clave publicados por Google, consulta el Comienza a usar los modelos de Gemma y la Lista de modelos de Gemma.

Ejecuta solicitudes de generación e inferencia

Después de seleccionar un marco de ejecución de IA y una variante de Gemma, puedes comenzar a ejecutar el modelo y solicitarle que genere contenido o complete tareas. Para obtener más información sobre cómo ejecutar Gemma con un marco específico, consulta las guías vinculadas en la sección Elige un marco.

Formato de la instrucción

Todas las variantes de Gemma ajustadas por instrucciones tienen requisitos específicos de formato de instrucciones. Algunos de estos requisitos de formato se controlan automáticamente con el marco que usas para ejecutar modelos de Gemma, pero cuando envías datos de instrucciones directamente a un tokenizador, debes agregar etiquetas específicas, y los requisitos de etiquetado pueden cambiar según la variante de Gemma que uses. Consulta las siguientes guías para obtener información sobre el formato de instrucciones y las instrucciones del sistema de las variantes de Gemma: