Ejecutar modelos de IA generativa, como Gemma, puede ser un desafío sin el hardware adecuado. Los frameworks de código abierto, como llama.cpp y Ollama, facilitan esta tarea, ya que configuran un entorno de ejecución preconfigurado que te permite ejecutar versiones de Gemma con menos recursos de procesamiento. De hecho, con llama.cpp y Ollama, puedes ejecutar versiones de Gemma en una laptop o en otro dispositivo de procesamiento pequeño sin una unidad de procesamiento gráfico (GPU).
Para ejecutar modelos de Gemma con menos recursos de procesamiento, los frameworks llama.cpp y Ollama usan versiones cuantificadas de los modelos en el formato de archivo de modelo de formato unificado de Georgi Gerganov (GGUF). Estos modelos cuantificados se modifican para procesar solicitudes con datos más pequeños y menos precisos. El uso de datos menos precisos en los modelos cuantificados para procesar solicitudes suele reducir la calidad del resultado de los modelos, pero también tiene el beneficio de reducir los costos de los recursos de procesamiento.
En esta guía, se describe cómo configurar y usar Ollama para ejecutar Gemma y generar respuestas de texto.
Configuración
En esta sección, se describe cómo configurar Ollama y preparar una instancia del modelo Gemma para responder a solicitudes, lo que incluye solicitar acceso al modelo, instalar software y configurar un modelo Gemma en Ollama.
Instala Ollama
Antes de usar Gemma con Ollama, debes descargar e instalar el software de Ollama en tu dispositivo de procesamiento.
Para descargar e instalar Ollama, haz lo siguiente:
- Navega a la página de descarga: https://ollama.com/download
- Selecciona tu sistema operativo, haz clic en el botón Descargar o sigue las instrucciones de la página de descarga.
- Ejecuta el instalador para instalar la aplicación.
- Windows: Ejecuta el archivo *.exe del instalador y sigue las instrucciones.
- macOS: Descomprime el paquete zip y mueve la carpeta de la aplicación Ollama a tu directorio Applications.
- Linux: Sigue las instrucciones del instalador de la secuencia de comandos de bash.
Para confirmar que Ollama esté instalado, abre una ventana de terminal y, luego, ingresa el siguiente comando:
ollama --version
Deberías ver una respuesta similar a la siguiente: ollama version is #.#.##. Si no obtienes este resultado, asegúrate de que el ejecutable de Ollama se haya agregado a la ruta del sistema operativo.
Configura Gemma en Ollama
El paquete de instalación de Ollama no incluye ningún modelo de forma predeterminada. Descarga un modelo con el comando pull.
Para configurar Gemma en Ollama, haz lo siguiente:
Para descargar y configurar la variante predeterminada de Gemma 4, abre una ventana de terminal y, luego, ingresa el siguiente comando:
ollama pull gemma4
Después de completar la descarga, puedes confirmar que el modelo está disponible con el siguiente comando:
ollama list
Los modelos se especifican como <model_name>:<tag>. En el caso de Gemma 4, hay cuatro tamaños: parámetros de E2B, E4B, 26B y 31B:
- Parámetros de E2B
gemma4:e2b - Parámetros de E4B
gemma4:e4b - 26B, parámetros de A4B
gemma4:26b - Parámetros de 31B
gemma4:31b
Puedes encontrar las etiquetas disponibles en el sitio web de Ollama, incluidas Gemma 4, Gemma 3n, Gemma 3, Gemma 2 y Gemma.
Genera respuestas
Cuando termines de instalar un modelo de Gemma en Ollama, podrás generar respuestas de inmediato con el comando run de la interfaz de línea de comandos de Ollama. Ollama también configura un servicio web para acceder al modelo, que puedes probar con el comando curl.
Para generar una respuesta desde la línea de comandos, haz lo siguiente:
En una ventana de la terminal, ingresa el siguiente comando:
ollama run gemma4 "roses are red"Incluye la ruta de acceso a tu imagen para usar una entrada visual:
ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
Para generar una respuesta con el servicio web local de Ollama, haz lo siguiente:
En una ventana de la terminal, ingresa el siguiente comando:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"roses are red"\ }'Incluye una lista de imágenes codificadas en base64 para usar una entrada visual:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"caption this image",\ "images":[...]\ }'
Modelos de Gemma ajustados
Ollama proporciona un conjunto de variantes oficiales del modelo Gemma para su uso inmediato, que se cuantifican y guardan en formato GGUF. Puedes usar tus propios modelos de Gemma ajustados con Ollama convirtiéndolos al formato GGUF. Ollama incluye algunas funciones para convertir modelos ajustados de un formato Modelfile a GGUF. Para obtener más información sobre cómo convertir tu modelo ajustado a GGUF, consulta el archivo README de Ollama.
Próximos pasos
Una vez que Gemma se ejecute con Ollama, podrás comenzar a experimentar y compilar soluciones con las capacidades de IA generativa de Gemma. La interfaz de línea de comandos de Ollama puede ser útil para crear soluciones de scripting. La interfaz de servicio web local de Ollama puede ser útil para crear aplicaciones experimentales y de uso de bajo volumen.
- Intenta realizar la integración con el servicio web de Ollama para crear un asistente de código personal que se ejecute de forma local.
- Obtén más información para ajustar un modelo de Gemma.
- Obtén información para ejecutar Gemma con Ollama usando los servicios de Google Cloud Run.
- Obtén más información para ejecutar Gemma con Google Cloud.