Ejecutar modelos de inteligencia artificial (IA) generativa como Gemma puede ser un desafío sin el hardware adecuado. Los frameworks de código abierto, como llama.cpp y Ollama, facilitan esta tarea, ya que configuran un entorno de ejecución preconfigurado que te permite ejecutar versiones de Gemma con menos recursos de procesamiento. De hecho, con llama.cpp y Ollama, puedes ejecutar versiones de Gemma en una laptop o en otro dispositivo informático pequeño sin una unidad de procesamiento gráfico (GPU).
Para ejecutar modelos de Gemma con menos recursos de procesamiento, los frameworks llama.cpp y Ollama usan versiones cuantizadas de los modelos en el formato de archivo de modelo de formato unificado generado por GPT (GGUF). Estos modelos quantizados se modifican para procesar solicitudes con datos más pequeños y menos precisos. El uso de datos menos precisos en los modelos cuantificados para procesar solicitudes suele disminuir la calidad del resultado de los modelos, pero con el beneficio de reducir también los costos de recursos de procesamiento.
En esta guía, se describe cómo configurar y usar Ollama para ejecutar Gemma y generar respuestas textuales.
Configuración
En esta sección, se describe cómo configurar Ollama y preparar una instancia del modelo Gemma para responder solicitudes, lo que incluye solicitar acceso al modelo, instalar software y configurar un modelo Gemma en Ollama.
Obtén acceso a los modelos de Gemma
Antes de trabajar con modelos de Gemma, asegúrate de solicitar acceso a través de Kaggle y de revisar las Condiciones de uso de Gemma.
Instala Ollama
Para poder usar Gemma con Ollama, debes descargar e instalar el software de Ollama en tu dispositivo informático.
Para descargar e instalar Ollama, haz lo siguiente:
- Navega a la página de descarga: https://ollama.com/download
- Selecciona tu sistema operativo, haz clic en el botón Download o sigue las instrucciones que se indican en la página de descarga.
- Ejecuta el instalador para instalar la aplicación.
- Windows: Ejecuta el archivo *.exe del instalador y sigue las instrucciones.
- Mac: Descomprime el paquete ZIP y mueve la carpeta de la aplicación Ollama al directorio Aplicaciones.
- Linux: Sigue las instrucciones del instalador de secuencias de comandos de Bash.
Para confirmar que Ollama está instalado, abre una ventana de terminal y escribe el siguiente comando:
ollama --version
Deberías ver una respuesta similar a la siguiente: ollama version is #.#.##
. Si no obtienes este resultado, asegúrate de que el ejecutable de Ollama se agregue a la ruta de acceso de tu sistema operativo.
Configura Gemma en Ollama
El paquete de instalación de Ollama no incluye ningún modelo de forma predeterminada. Puedes descargar un modelo con el comando pull
.
Para configurar Gemma en Ollama, haz lo siguiente:
Para descargar y configurar la variante predeterminada de Gemma 2, abre una ventana de terminal y, luego, ingresa el siguiente comando:
ollama pull gemma2
Después de completar la descarga, puedes confirmar que el modelo está disponible con el siguiente comando:
ollama list
De forma predeterminada, Ollama descarga la variante del modelo Gemma de 9, 000 millones de parámetros y cuantificada de 4 bits (Q4_0). También puedes descargar y usar otros tamaños del modelo Gemma especificando un tamaño de parámetro.
Los modelos se especifican como <model_name>:<tag>
. Para el modelo de 2, 000 millones de parámetros de Gemma 2, ingresa gemma2:2b
. Para el modelo de 27,000 millones de parámetros, ingresa gemma2:27b
. Puedes encontrar las etiquetas disponibles en el sitio web de Ollama, incluidas Gemma 2 y Gemma.
Genera respuestas
Cuando termines de instalar un modelo de Gemma en Ollama, podrás generar respuestas de inmediato con el comando run
de la interfaz de línea de comandos de Ollama.
Ollama también configura un servicio web para acceder al modelo, que puedes probar con el comando curl
.
Para generar una respuesta desde la línea de comandos, haz lo siguiente:
En una ventana de terminal, ingresa el siguiente comando:
ollama run gemma2 "roses are red"
Para generar una respuesta con el servicio web local de Ollama, sigue estos pasos:
En una ventana de terminal, ingresa el siguiente comando:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma2",\ "prompt":"roses are red"\ }'
Modelos de Gemma ajustados
Ollama proporciona un conjunto de variantes oficiales del modelo de Gemma para uso inmediato que se cuantifican y guardan en formato GGUF. Puedes usar tus propios modelos de Gemma ajustados con Ollama. Para ello, conviértelos al formato GGUF. Ollama incluye algunas funciones para convertir modelos ajustados de un formato de archivo de modelo a GGUF. Para obtener más información sobre cómo convertir tu modelo ajustado a GGUF, consulta el archivo README de Ollama.
Próximos pasos
Una vez que tengas Gemma en funcionamiento con Ollama, podrás comenzar a experimentar y a compilar soluciones con las capacidades de IA generativa de Gemma. La interfaz de línea de comandos de Ollama puede ser útil para compilar soluciones de secuencias de comandos. La interfaz del servicio web local de Ollama puede ser útil para compilar aplicaciones experimentales y de bajo volumen de uso.
- Intenta realizar la integración con el servicio web de Ollama para crear un asistente de código personal que se ejecute de forma local.
- Obtén información para ajustar un modelo de Gemma.
- Aprende a ejecutar Gemma con Ollama a través de los servicios de Google Cloud Run.
- Obtén información para ejecutar Gemma con Google Cloud.