Ten przewodnik pokazuje, jak wdrożyć otwarte modele Gemma 3 w Cloud Run jednym kliknięciem w Google AI Studio.
Google AI Studio to działająca w przeglądarce platforma, która pozwala szybko testować modele i eksperymentować z różnymi promptami. Po wypełnieniu promptu czatu w celu zaprojektowania prototypu aplikacji internetowej korzystającej z wybranego modelu Gemma 3 możesz kliknąć Wdróż w Cloud Run, aby uruchomić model Gemma w usłudze Cloud Run z obsługą GPU.
Jeśli wdrożysz wygenerowaną usługę front-end w Cloud Run za pomocą Google AI Studio, pominiesz większość kroków konfiguracji przygotowywania kontenera, ponieważ Cloud Run udostępnia gotowy kontener do obsługi otwartych modeli Gemma w Cloud Run, który obsługuje pakiet Google Gen AI SDK.
Pierwsze kroki z Google AI Studio
W tej sekcji znajdziesz instrukcje wdrażania Gemma 3 w Cloud Run za pomocą Google AI Studio.
Wybierz model Gemma w Google AI Studio.
W panelu Ustawienia wykonania na stronie Google Chat użyj domyślnego modelu Gemma lub wybierz jeden z modeli Gemma.
Na pasku u góry kliknij Wyświetl więcej działań, a następnie Wdróż w Cloud Run.
W oknie Wdróż Gemma 3 w Google Cloud Run postępuj zgodnie z instrukcjami, aby utworzyć nowy projekt Google Cloud lub wybrać istniejący. Jeśli nie ma powiązanego konta rozliczeniowego, możesz zobaczyć prośbę o włączenie płatności.
Gdy Google AI Studio zweryfikuje projekt, kliknij Wdróż w Google Cloud.
Po wdrożeniu modelu Gemma 3 do Google Cloud w oknie pojawi się komunikat:
- Adres URL punktu końcowego Cloud Run usługi Cloud Run z Gemma 3 i Olma.
- Wygenerowany klucz interfejsu API, który służy do uwierzytelniania w bibliotekach interfejsu Gemini API. Ten klucz jest skonfigurowany jako zmienne środowiskowe w wdrożonej usłudze Cloud Run, aby autoryzować przychodzące żądania. Zalecamy zmodyfikowanie klucza interfejsu API, aby używać uwierzytelniania z użyciem uprawnień. Więcej informacji znajdziesz w artykule Bezpieczne korzystanie z pakietu Google Gen AI SDK.
- link do usługi Cloud Run w konsoli Google Cloud. Aby dowiedzieć się więcej o domyślnych ustawieniach konfiguracji usługi Cloud Run, kliknij link, a następnie wybierz Edytuj i wdróż nową wersję, aby wyświetlić lub zmodyfikować ustawienia konfiguracji.
Aby wyświetlić przykładowy kod interfejsu Gemini API, który został użyty do utworzenia usługi Cloud Run, kliknij Pobierz kod.
Opcjonalnie: skopiuj kod i w razie potrzeby wprowadź w nim zmiany.
W kodzie możesz używać wdrożonego punktu końcowego Cloud Run i klucza API z pakietem SDK Google Gen AI.
Jeśli na przykład używasz pakietu Google Gen AI SDK dla Pythona, kod Pythona może wyglądać tak:
from google import genai
from google.genai.types import HttpOptions
# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))
# Example: Generate content (non-streaming)
response = client.models.generate_content(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["How does AI work?"]
)
print(response.text)
# Example: Stream generate content
response = client.models.generate_content_stream(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
print(chunk.text, end="")
Uwagi
Podczas wdrażania usługi Cloud Run z Google AI Studio weź pod uwagę te kwestie:
- Ceny: Cloud Run to płatny komponent. Aby wygenerować szacowany koszt na podstawie przewidywanego wykorzystania, użyj kalkulatora cen.
- Limit: Cloud Run automatycznie wysyła prośbę o
Request Total Nvidia L4 GPU allocation, per project per regionlimit w ramach interfejsu Cloud Run Admin API. - Serwer proxy aplikacji: wdrożona usługa używa serwera proxy aplikacji Gemini w Google AI Studio do owinięcia Ollama i zapewnienia zgodności usługi z interfejsem Gemini API.
- Uprawnienia: jeśli chcesz zmodyfikować usługę Cloud Run, musisz mieć wymagane role uprawnień IAM przypisane do swojego konta w projekcie.
- Uwierzytelnianie: gdy wdrażasz usługę Cloud Run z Google AI Studio, usługa jest domyślnie wdrażana z dostępem publicznym (bez uwierzytelniania) (opcja
--allow-unauthenticated). Aby korzystać z silniejszego mechanizmu zabezpieczeń, zalecamy uwierzytelnianie się za pomocą uprawnień.
Co dalej?
Poznaj sprawdzone metody zabezpieczania i optymalizowania wydajności podczas wdrażania w Cloud Run z Google AI Studio.