Ce guide explique comment déployer des modèles ouverts Gemma 3 sur un Cloud Run en un seul clic dans Google AI Studio.
Google AI Studio est une plate-forme basée sur un navigateur qui vous permet de tester rapidement des modèles et d'essayer différentes requêtes. Après avoir saisi une invite de chat pour concevoir un prototype d'application Web qui utilise le modèle Gemma 3 sélectionné, vous pouvez sélectionner Déployer sur Cloud Run pour exécuter le modèle Gemma sur un service Cloud Run compatible avec les GPU.
En utilisant Google AI Studio pour déployer un service de front-end généré sur Cloud Run, vous évitez la plupart des étapes de configuration de la préparation d'un conteneur, car Cloud Run fournit un conteneur prédéfini pour diffuser des modèles Gemma ouverts sur Cloud Run compatibles avec le SDK Google Gen AI.
Premiers pas avec Google AI Studio
Cette section vous explique comment déployer Gemma 3 sur Cloud Run à l'aide de Google AI Studio.
Sélectionnez un modèle Gemma dans Google AI Studio.
Dans le panneau Paramètres d'exécution de la page Chat, utilisez le modèle Gemma par défaut ou sélectionnez l'un des modèles Gemma.
Dans la barre supérieure, sélectionnez Afficher plus d'actions, puis cliquez sur Déployer sur Cloud Run.
Dans la boîte de dialogue Déployer Gemma 3 sur Google Cloud Run, suivez les instructions pour créer un projet Google Cloud ou sélectionnez un projet existant. Vous pouvez être invité à activer la facturation si aucun compte de facturation n'est associé.
Une fois que Google AI Studio a validé votre projet, cliquez sur Déployer sur Google Cloud.
Une fois le modèle Gemma 3 déployé sur Google Cloud, la boîte de dialogue affiche ce qui suit:
- URL du point de terminaison Cloud Run de votre service Cloud Run exécutant Gemma 3 et Ollama.
- Clé API générée utilisée pour l'authentification avec les bibliothèques d'API Gemini. Cette clé est configurée en tant que variable d'environnement du service Cloud Run déployé pour autoriser les requêtes entrantes. Nous vous recommandons de modifier la clé API pour utiliser l'authentification IAM. Pour en savoir plus, consultez la section Interagir de manière sécurisée avec le SDK Google Gen AI.
- Lien vers le service Cloud Run dans la console Google Cloud. Pour en savoir plus sur les paramètres de configuration par défaut de votre service Cloud Run, accédez au lien, puis sélectionnez Modifier et déployer la nouvelle révision pour afficher ou modifier les paramètres de configuration.
Pour afficher l'exemple de code de l'API Gemini utilisé pour créer le service Cloud Run, sélectionnez Obtenir le code.
Facultatif: Copiez le code et apportez les modifications nécessaires.
Avec votre code, vous pouvez utiliser le point de terminaison Cloud Run et la clé API déployés avec le SDK Google Gen AI.
Par exemple, si vous utilisez le SDK Google Gen AI pour Python, le code Python peut se présenter comme suit:
from google import genai
from google.genai.types import HttpOptions
# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))
# Example: Generate content (non-streaming)
response = client.models.generate_content(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["How does AI work?"]
)
print(response.text)
# Example: Stream generate content
response = client.models.generate_content_stream(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
print(chunk.text, end="")
Remarques
Lorsque vous déployez un service Cloud Run à partir de Google AI Studio, tenez compte des points suivants:
- Tarifs: Cloud Run est un composant facturable. Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.
- Quota: Cloud Run envoie automatiquement la requête de quota
Request Total Nvidia L4 GPU allocation, per project per region
via l'API Cloud Run Admin. - App Proxy Server (Serveur proxy d'application) : le service déployé utilise le Google AI Studio Gemini App Proxy Server (Serveur proxy d'application Gemini de Google AI Studio) pour encapsuler Ollama et rendre votre service compatible avec l'API Gemini.
- Autorisations: si vous devez modifier votre service Cloud Run, les rôles IAM requis doivent être accordés à votre compte dans votre projet.
- Authentification: par défaut, lorsque vous déployez un service Cloud Run à partir de Google AI Studio, il est déployé avec un accès public (non authentifié) (indicateur
--allow-unauthenticated
). Pour utiliser un mécanisme de sécurité plus efficace, nous vous recommandons de vous authentifier avec IAM.
Étape suivante
Découvrez les bonnes pratiques à suivre pour sécuriser et optimiser les performances lorsque vous déployez sur Cloud Run depuis Google AI Studio.