La plataforma de Google Cloud proporciona muchos servicios para implementar y entregar modelos abiertos de Gemma, incluidos los siguientes:
Vertex AI
Vertex AI es una plataforma de Google Cloud para compilar y escalar con rapidez proyectos de aprendizaje automático sin necesidad de tener experiencia interna en operaciones de AA. Vertex AI proporciona una consola en la que puedes trabajar con una gran selección de modelos y ofrece capacidades de operaciones de AA de extremo a extremo y una experiencia sin servidores para un desarrollo optimizado.
Puedes usar Vertex AI como la aplicación descendente que entrega Gemma, que está disponible en Model Garden, una colección seleccionada de modelos. Por ejemplo, puedes transferir ponderaciones de una implementación de Gemma y usar Vertex AI para entregar esa versión de Gemma y obtener predicciones.
Para obtener más información, consulta las siguientes páginas:
- Introducción a Vertex AI: Comienza a usar Vertex AI.
- Gemma con Vertex AI: Usa modelos abiertos de Gemma con Vertex AI.
- Optimiza Gemma con KerasNLP y, luego, impleméntalo en Vertex AI: Notebook de extremo a extremo para ajustar Gemma con Keras.
Cloud Run
Cloud Run es una plataforma completamente administrada para ejecutar tu código, función o contenedor sobre la infraestructura altamente escalable de Google.
Cloud Run ofrece GPUs de pago por uso, a pedido, con inicio rápido y escalamiento a cero, que te permiten entregar modelos abiertos como Gemma.
Para obtener más información sobre cómo ejecutar Gemma en Cloud Run, consulta las siguientes páginas:
- Prácticas recomendadas para usar GPUs en Cloud Run
- Ejecuta la inferencia de Gemma en GPUs de Cloud Run con Ollama
- Ejecuta la inferencia de Gemma en GPUs de Cloud Run con vLLM
- Ejecuta la inferencia de Gemma en GPUs de Cloud Run con Transformers.js
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) es un servicio administrado de Kubernetes de Google Cloud que puedes usar para implementar y operar aplicaciones alojadas en contenedores a gran escala con la infraestructura de Google. Puedes entregar Gemma con unidades de procesamiento tensorial (TPU) de Cloud y unidades de procesamiento gráfico (GPU) en GKE con estos frameworks de entrega de LLM:
- Entrega Gemma con GPUs en GKE con vLLM
- Entrega Gemma con GPUs en GKE con TGI
- Entrega Gemma con GPUs en GKE con Triton y TensorRT-LLM
- Entrega Gemma con TPU en GKE con JetStream
- Cómo entregar Gemma con TPU en GKE con Saxml
La entrega de Gemma en GKE te permite implementar una solución de entrega de inferencia sólida y lista para la producción con todos los beneficios de Kubernetes administrado, incluida la escalabilidad eficiente y una mayor disponibilidad.
Para obtener más información, consulta las siguientes páginas:
- Descripción general de GKE: Cómo comenzar a usar Google Kubernetes Engine (GKE)
- Organización de IA/AA en GKE: Ejecuta cargas de trabajo de IA/AA optimizadas con GKE.
Dataflow ML
Dataflow ML es una plataforma de Google Cloud para implementar y administrar flujos de trabajo de aprendizaje automático completos. Con Dataflow ML, puedes preparar tus datos para el entrenamiento de modelos con herramientas de procesamiento de datos y, luego, usar modelos como Gemma para realizar inferencias locales y remotas con canalizaciones por lotes y de transmisión.
Puedes usar AA de Dataflow para integrar Gemma sin problemas en tus canalizaciones de inferencia de Apache Beam con unas pocas líneas de código, lo que te permite transferir datos, verificarlos y transformarlos, ingresar entradas de texto en Gemma y generar resultados de texto.
Para obtener más información, consulta las siguientes páginas:
- Usa modelos abiertos de Gemma con Dataflow: Comienza a usar Gemma en Dataflow.
- Ejecuta la inferencia con un modelo abierto de Gemma: Tutorial que usa Gemma en una canalización de inferencia de Apache Beam.