Implantar o Gemma 3 no Cloud Run com o Google AI Studio

Este guia mostra como implantar modelos abertos do Gemma 3 em um Cloud Run com um clique no Google AI Studio.

O Google AI Studio é uma plataforma baseada em navegador que permite testar modelos e comandos diferentes. Depois de inserir um comando de chat para projetar um protótipo de app da Web que usa o modelo Gemma 3 selecionado, selecione Implantar no Cloud Run para executar o modelo Gemma em um serviço do Cloud Run com GPU.

Ao usar o Google AI Studio para implantar um serviço front-end gerado no Cloud Run, você pula a maioria das etapas de configuração para preparar um contêiner, já que o Cloud Run fornece um contêiner pré-criado para veicular modelos abertos do Gemma no Cloud Run que oferecem suporte ao SDK do Google Gen AI.

Começar a usar o Google AI Studio

Esta seção orienta você na implantação do Gemma 3 no Cloud Run usando o Google AI Studio.

  1. Selecione um modelo do Gemma no Google AI Studio.

    Acessar o Google AI Studio

    No painel Configurações de execução na página Chat, use o modelo padrão do Gemma ou selecione um dos modelos do Gemma.

  2. Na barra de ferramentas, selecione Ver mais ações e clique em Implantar no Cloud Run.

  3. Na caixa de diálogo Deploy Gemma 3 on Google Cloud Run, siga as instruções para criar um novo projeto do Google Cloud ou selecione um projeto existente. Talvez seja necessário ativar o faturamento se não houver uma conta de faturamento associada.

  4. Depois que o Google AI Studio verificar seu projeto, clique em Deploy to Google Cloud.

  5. Depois que o modelo Gemma 3 for implantado no Google Cloud, a caixa de diálogo vai mostrar o seguinte:

    • Um URL de endpoint do Cloud Run do seu serviço do Cloud Run que executa o Gemma 3 e o Ollama.
    • Uma chave de API gerada que é usada para autenticação com as bibliotecas da API Gemini. Essa chave é configurada como uma variável de ambiente do serviço implantado do Cloud Run para autorizar as solicitações recebidas. Recomendamos modificar a chave de API para usar a autenticação do IAM. Para mais detalhes, consulte Interagir com segurança com o SDK da IA generativa do Google.
    • Um link para o serviço do Cloud Run no console do Google Cloud. Para saber mais sobre as configurações padrão do serviço do Cloud Run, acesse o link e selecione Editar e implantar uma nova revisão para visualizar ou modificar as configurações.
  6. Para conferir o código de amostra da API Gemini usada para criar o serviço do Cloud Run, selecione Get Code.

  7. Opcional: copie o código e faça as modificações necessárias.

Com seu código, é possível usar o endpoint e a chave de API implantados do Cloud Run com o SDK do Google Gen AI.

Por exemplo, se você estiver usando o SDK de IA generativa do Google para Python, o código Python poderá ser parecido com este:

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

Considerações

Ao implantar um serviço do Cloud Run no Google AI Studio, considere o seguinte:

  • Preços: o Cloud Run é um componente que gera cobranças. Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
  • Cota: o Cloud Run faz a solicitação de cota Request Total Nvidia L4 GPU allocation, per project per region automaticamente na API Cloud Run Admin.
  • Servidor proxy do app: o serviço implantado usa o Servidor proxy do app Gemini do Google AI Studio para agrupar o Ollama e tornar seu serviço compatível com a API Gemini.
  • Permissões: se você precisar modificar seu serviço do Cloud Run, é necessário ter as funções do IAM necessárias concedidas à sua conta no projeto.
  • Autenticação: por padrão, quando você implanta um serviço do Cloud Run no Google AI Studio, ele é implantado com acesso público (não autenticado) (flag --allow-unauthenticated). Para usar um mecanismo de segurança mais forte, recomendamos que você autentique com o IAM.

A seguir

Saiba mais sobre as práticas recomendadas para proteger e otimizar o desempenho ao implantar no Cloud Run pelo Google AI Studio.