Lanzamos el Gemma 3n con entrada de audio y optimizado para su uso en dispositivos cotidianos. Más información

Implementa Gemma 3 en Cloud Run con Google AI Studio

En esta guía, se muestra cómo implementar modelos abiertos de Gemma 3 en un Cloud Run con un solo clic en Google AI Studio.

Google AI Studio es una plataforma basada en navegador que te permite probar rápidamente modelos y experimentar con diferentes instrucciones. Después de ingresar una instrucción de chat para diseñar un prototipo de app web que use el modelo Gemma 3 seleccionado, puedes seleccionar Implementar en Cloud Run para ejecutar el modelo de Gemma en un servicio de Cloud Run habilitado para GPU.

Cuando usas Google AI Studio para implementar un servicio de frontend generado en Cloud Run, omites la mayoría de los pasos de configuración para preparar un contenedor, ya que Cloud Run proporciona un contenedor precompilado para entregar modelos abiertos de Gemma en Cloud Run que admiten el SDK de Google Gen AI.

Comienza a usar Google AI Studio

En esta sección, se explica cómo implementar Gemma 3 en Cloud Run con Google AI Studio.

Selecciona un modelo de Gemma en Google AI Studio.

Ve a Google AI Studio

En el panel Run settings de la página Chat, usa el modelo de Gemma predeterminado o selecciona uno de los modelos de Gemma.
En la barra superior, selecciona Ver más acciones y haz clic en Implementar en Cloud Run.
En el diálogo Deploy Gemma 3 on Google Cloud Run, sigue las indicaciones para crear un proyecto de Google Cloud nuevo o selecciona uno existente. Es posible que se te solicite que habilites la facturación si no hay una cuenta de facturación asociada.
Después de que Google AI Studio verifique tu proyecto, haz clic en Implementar en Google Cloud.
Después de que el modelo Gemma 3 se haya implementado correctamente en Google Cloud, el diálogo mostrará lo siguiente:
- Una URL de extremo de Cloud Run de tu servicio de Cloud Run que ejecute Gemma 3 y Ollama
- Es una clave de API generada que se usa para la autenticación con las bibliotecas de la API de Gemini. Esta clave se configura como una variable de entorno del servicio de Cloud Run implementado para autorizar las solicitudes entrantes. Te recomendamos que modifiques la clave de API para usar la autenticación de IAM. Para obtener más detalles, consulta Cómo interactuar de forma segura con el SDK de Google Gen AI.
- Un vínculo al servicio de Cloud Run en la consola de Google Cloud Para obtener información sobre la configuración predeterminada de tu servicio de Cloud Run, ve al vínculo y, luego, selecciona Editar y, luego, implementar una nueva revisión para ver o modificar la configuración.
Para ver el código de muestra de la API de Gemini que se usó para crear el servicio de Cloud Run, selecciona Get Code.
Opcional: Copia el código y realiza las modificaciones necesarias.

Con tu código, puedes usar el extremo de Cloud Run y la clave de API implementados con el SDK de Google Gen AI.

Por ejemplo, si usas el SDK de IA generativa de Google para Python, el código de Python podría verse de la siguiente manera:

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

Consideraciones

Cuando implementes un servicio de Cloud Run desde Google AI Studio, ten en cuenta lo siguiente:

Precios: Cloud Run es un componente facturable. Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios.
Cuota: Cloud Run realiza automáticamente la solicitud de la cuota de Request Total Nvidia L4 GPU allocation, per project per region en la API de Cloud Run Admin.
Servidor proxy de apps: El servicio implementado usa el servidor proxy de apps de Gemini de Google AI Studio para unir Ollama y hacer que tu servicio sea compatible con la API de Gemini.
Permisos: Si necesitas modificar tu servicio de Cloud Run, debes tener los roles de IAM requeridos otorgados a tu cuenta en tu proyecto.
Autenticación: De forma predeterminada, cuando implementas un servicio de Cloud Run desde Google AI Studio, el servicio se implementa con acceso público (no autenticado) (marca --allow-unauthenticated). Para usar un mecanismo de seguridad más sólido, te recomendamos que te autentiques con IAM.

¿Qué sigue?

Obtén información sobre las prácticas recomendadas para proteger y optimizar el rendimiento cuando despliegas en Cloud Run desde Google AI Studio.