Gemma 3 mit Google AI Studio in Cloud Run bereitstellen

In dieser Anleitung erfahren Sie, wie Sie offene Gemma 3-Modelle mit nur einem Klick in Google AI Studio in Cloud Run bereitstellen.

Google AI Studio ist eine browserbasierte Plattform, mit der Sie schnell Modelle testen und mit verschiedenen Prompts experimentieren können. Nachdem Sie einen Chatvorschlag eingegeben haben, um eine Prototyp-Webanwendung zu entwerfen, die das ausgewählte Gemma 3-Modell verwendet, können Sie In Cloud Run bereitstellen auswählen, um das Gemma-Modell in einem GPU-fähigen Cloud Run-Dienst auszuführen.

Wenn Sie einen generierten Front-End-Dienst mit Google AI Studio in Cloud Run bereitstellen, können Sie die meisten Einrichtungsschritte für die Vorbereitung eines Containers überspringen, da Cloud Run einen vordefinierten Container für die Bereitstellung von Gemma-offenen Modellen in Cloud Run bietet, der das Google Gen AI SDK unterstützt.

Erste Schritte mit Google AI Studio

In diesem Abschnitt erfahren Sie, wie Sie Gemma 3 mit Google AI Studio in Cloud Run bereitstellen.

  1. Wählen Sie in Google AI Studio ein Gemma-Modell aus.

    Google AI Studio aufrufen

    Verwenden Sie auf der Seite Chat im Bereich Ausführungseinstellungen das Standard-Gemma-Modell oder wählen Sie eines der Gemma-Modelle aus.

  2. Wählen Sie in der oberen Leiste Weitere Aktionen anzeigen aus und klicken Sie auf In Cloud Run bereitstellen.

  3. Folgen Sie im Dialogfeld Gemma 3 in Google Cloud Run bereitstellen der Anleitung, um ein neues Google Cloud-Projekt zu erstellen, oder wählen Sie ein vorhandenes Projekt aus. Möglicherweise werden Sie aufgefordert, die Abrechnung zu aktivieren, wenn kein Rechnungskonto verknüpft ist.

  4. Nachdem Ihr Projekt in Google AI Studio überprüft wurde, klicken Sie auf In Google Cloud bereitstellen.

  5. Nachdem das Gemma 3-Modell erfolgreich in Google Cloud bereitgestellt wurde, wird im Dialogfeld Folgendes angezeigt:

    • Eine Cloud Run-Endpunkt-URL Ihres Cloud Run-Dienstes, auf dem Gemma 3 und Llama ausgeführt werden.
    • Ein generierter API-Schlüssel, der für die Authentifizierung mit den Gemini API-Bibliotheken verwendet wird. Dieser Schlüssel wird als Umgebungsvariable des bereitgestellten Cloud Run-Dienstes konfiguriert, um eingehende Anfragen zu autorisieren. Wir empfehlen, den API-Schlüssel so zu ändern, dass die IAM-Authentifizierung verwendet wird. Weitere Informationen finden Sie unter Sichere Interaktion mit dem Google Gen AI SDK.
    • Ein Link zum Cloud Run-Dienst in der Google Cloud Console. Informationen zu den Standardkonfigurationseinstellungen für Ihren Cloud Run-Dienst finden Sie unter dem Link. Wählen Sie dann Neue Überarbeitung bearbeiten und bereitstellen aus, um die Konfigurationseinstellungen aufzurufen oder zu ändern.
  6. Wenn Sie den Beispielcode der Gemini API aufrufen möchten, mit dem der Cloud Run-Dienst erstellt wurde, wählen Sie Code abrufen aus.

  7. Optional: Kopieren Sie den Code und nehmen Sie nach Bedarf Änderungen vor.

Sie können den bereitgestellten Cloud Run-Endpunkt und den API-Schlüssel mit dem Google Gen AI SDK verwenden.

Wenn Sie beispielsweise das Google Gen AI SDK for Python verwenden, könnte der Python-Code so aussehen:

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

Hinweise

Beachten Sie beim Bereitstellen eines Cloud Run-Dienstes über Google AI Studio Folgendes:

  • Preise: Cloud Run ist eine abrechenbare Komponente. Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
  • Kontingent: Cloud Run sendet automatisch eine Anfrage für ein Request Total Nvidia L4 GPU allocation, per project per region-Kontingent über die Cloud Run Admin API.
  • App-Proxyserver: Der bereitgestellte Dienst verwendet den Gemini App-Proxyserver von Google AI Studio, um Ollama zu verpacken und Ihren Dienst mit der Gemini API kompatibel zu machen.
  • Berechtigungen: Wenn Sie Ihren Cloud Run-Dienst ändern möchten, müssen Sie Ihrem Konto für Ihr Projekt die erforderlichen IAM-Rollen zuweisen.
  • Authentifizierung: Wenn Sie einen Cloud Run-Dienst aus Google AI Studio bereitstellen, wird er standardmäßig mit öffentlichem (nicht authentifiziertem) Zugriff (--allow-unauthenticated-Flag) bereitgestellt. Für einen stärkeren Sicherheitsmechanismus empfehlen wir die Authentifizierung mit IAM.

Nächste Schritte

Best Practices zum Schützen und Optimieren der Leistung bei der Bereitstellung in Cloud Run über Google AI Studio