Esegui il deployment di Gemma 3 su Cloud Run con Google AI Studio

Questa guida mostra come eseguire il deployment dei modelli aperti di Gemma 3 su un servizio Cloud Run con un singolo clic in Google AI Studio.

Google AI Studio è una piattaforma basata su browser che ti consente di provare rapidamente modelli e sperimentare diversi prompt. Dopo aver inserito un prompt di chat per progettare un prototipo di app web che utilizza il modello Gemma 3 selezionato, puoi selezionare Esegui il deployment in Cloud Run per eseguire il modello Gemma su un servizio Cloud Run con GPU.

Se utilizzi Google AI Studio per eseguire il deployment di un servizio frontend generato in Cloud Run, puoi saltare la maggior parte dei passaggi di configurazione per la preparazione di un contenitore, poiché Cloud Run fornisce un contenitore predefinito per la pubblicazione di modelli aperti di Gemma su Cloud Run che supporta l'SDK di IA generativa di Google.

Iniziare a utilizzare Google AI Studio

Questa sezione descrive la procedura per eseguire il deployment di Gemma 3 in Cloud Run utilizzando Google AI Studio.

  1. Seleziona un modello Gemma in Google AI Studio.

    Vai a Google AI Studio

    Nel riquadro Impostazioni esecuzione della pagina Chat, utilizza il modello Gemma predefinito o seleziona uno dei modelli Gemma.

  2. Nella barra in alto, seleziona Visualizza altre azioni e fai clic su Esegui il deployment in Cloud Run.

  3. Nella finestra di dialogo Esegui il deployment di Gemma 3 su Google Cloud Run, segui le istruzioni per creare un nuovo progetto Google Cloud o selezionane uno esistente. Potresti dover attivare la fatturazione se non è presente un account di fatturazione associato.

  4. Dopo che Google AI Studio ha verificato il progetto, fai clic su Esegui il deployment su Google Cloud.

  5. Dopo aver eseguito il deployment del modello Gemma 3 su Google Cloud, nella finestra di dialogo viene visualizzato quanto segue:

    • Un URL endpoint Cloud Run del tuo servizio Cloud Run che esegue Gemma 3 e Ollama.
    • Una chiave API generata che viene utilizzata per l'autenticazione con le librerie API Gemini. Questa chiave è configurata come variabile di ambiente del servizio Cloud Run di cui è stato eseguito il deployment per autorizzare le richieste in arrivo. Ti consigliamo di modificare la chiave API per utilizzare l'autenticazione IAM. Per maggiori dettagli, consulta Interagire in modo sicuro con l'SDK di IA generativa di Google.
    • Un link al servizio Cloud Run nella console Google Cloud. Per informazioni sulle impostazioni di configurazione predefinite per il servizio Cloud Run, vai al link, quindi seleziona Modifica ed esegui il deployment di una nuova revisione per visualizzare o modificare le impostazioni di configurazione.
  6. Per visualizzare il codice di esempio dell'API Gemini utilizzato per creare il servizio Cloud Run, seleziona Ottieni codice.

  7. (Facoltativo) Copia il codice e apporta le modifiche necessarie.

Con il tuo codice, puoi utilizzare l'endpoint Cloud Run e la chiave API di cui è stato eseguito il deployment con il Google Gen AI SDK.

Ad esempio, se utilizzi Google Gen AI SDK per Python, il codice Python potrebbe avere il seguente aspetto:

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

Considerazioni

Quando esegui il deployment di un servizio Cloud Run da Google AI Studio, tieni conto di quanto segue:

  • Prezzi: Cloud Run è un componente fatturato. Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi.
  • Quota: Cloud Run effettua automaticamente la richiesta per la quota Request Total Nvidia L4 GPU allocation, per project per region nell'API Cloud Run Admin.
  • Server proxy per app: il servizio di cui è stato eseguito il deployment utilizza il server proxy per app Gemini di Google AI Studio per eseguire il wrapping di Ollama e rendere il servizio compatibile con l'API Gemini.
  • Autorizzazioni: se devi modificare il servizio Cloud Run, devi avere i ruoli IAM richiesti concessi al tuo account nel progetto.
  • Autenticazione: per impostazione predefinita, quando esegui il deployment di un servizio Cloud Run da Google AI Studio, il servizio viene implementato con accesso pubblico (non autenticato) (flag --allow-unauthenticated). Per utilizzare un meccanismo di sicurezza più efficace, ti consigliamo di eseguire l'autenticazione con IAM.

Passaggi successivi

Scopri le best practice per garantire la sicurezza e ottimizzare il rendimento quando esegui il deployment in Cloud Run da Google AI Studio.