Gemma 3n została wydana z wejściowym sygnałem audio i zoptymalizowana pod kątem urządzeń do codziennego użytku. Więcej informacji

Ta strona została przetłumaczona przez Cloud Translation API.

Wdrażanie Gemma 3 w Cloud Run za pomocą Google AI Studio

Ten przewodnik pokazuje, jak wdrożyć otwarte modele Gemma 3 w Cloud Run jednym kliknięciem w Google AI Studio.

Google AI Studio to działająca w przeglądarce platforma, która pozwala szybko testować modele i eksperymentować z różnymi promptami. Po wypełnieniu promptu czatu w celu zaprojektowania prototypu aplikacji internetowej korzystającej z wybranego modelu Gemma 3 możesz kliknąć Wdróż w Cloud Run, aby uruchomić model Gemma w usłudze Cloud Run z obsługą GPU.

Jeśli wdrożysz wygenerowaną usługę front-end w Cloud Run za pomocą Google AI Studio, pominiesz większość kroków konfiguracji przygotowywania kontenera, ponieważ Cloud Run udostępnia gotowy kontener do obsługi otwartych modeli Gemma w Cloud Run, który obsługuje pakiet Google Gen AI SDK.

Pierwsze kroki z Google AI Studio

W tej sekcji znajdziesz instrukcje wdrażania Gemma 3 w Cloud Run za pomocą Google AI Studio.

Wybierz model Gemma w Google AI Studio.

Otwórz Google AI Studio

W panelu Ustawienia wykonania na stronie Google Chat użyj domyślnego modelu Gemma lub wybierz jeden z modeli Gemma.
Na pasku u góry kliknij Wyświetl więcej działań, a następnie Wdróż w Cloud Run.
W oknie Wdróż Gemma 3 w Google Cloud Run postępuj zgodnie z instrukcjami, aby utworzyć nowy projekt Google Cloud lub wybrać istniejący. Jeśli nie ma powiązanego konta rozliczeniowego, możesz zobaczyć prośbę o włączenie płatności.
Gdy Google AI Studio zweryfikuje projekt, kliknij Wdróż w Google Cloud.
Po wdrożeniu modelu Gemma 3 do Google Cloud w oknie pojawi się komunikat:
- Adres URL punktu końcowego Cloud Run usługi Cloud Run z Gemma 3 i Olma.
- Wygenerowany klucz interfejsu API, który służy do uwierzytelniania w bibliotekach interfejsu Gemini API. Ten klucz jest skonfigurowany jako zmienne środowiskowe w wdrożonej usłudze Cloud Run, aby autoryzować przychodzące żądania. Zalecamy zmodyfikowanie klucza interfejsu API, aby używać uwierzytelniania z użyciem uprawnień. Więcej informacji znajdziesz w artykule Bezpieczne korzystanie z pakietu Google Gen AI SDK.
- link do usługi Cloud Run w konsoli Google Cloud. Aby dowiedzieć się więcej o domyślnych ustawieniach konfiguracji usługi Cloud Run, kliknij link, a następnie wybierz Edytuj i wdróż nową wersję, aby wyświetlić lub zmodyfikować ustawienia konfiguracji.
Aby wyświetlić przykładowy kod interfejsu Gemini API, który został użyty do utworzenia usługi Cloud Run, kliknij Pobierz kod.
Opcjonalnie: skopiuj kod i w razie potrzeby wprowadź w nim zmiany.

W kodzie możesz używać wdrożonego punktu końcowego Cloud Run i klucza API z pakietem SDK Google Gen AI.

Jeśli na przykład używasz pakietu Google Gen AI SDK dla Pythona, kod Pythona może wyglądać tak:

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

Uwagi

Podczas wdrażania usługi Cloud Run z Google AI Studio weź pod uwagę te kwestie:

Ceny: Cloud Run to płatny komponent. Aby wygenerować szacowany koszt na podstawie przewidywanego wykorzystania, użyj kalkulatora cen.
Limit: Cloud Run automatycznie wysyła prośbę o Request Total Nvidia L4 GPU allocation, per project per region limit w ramach interfejsu Cloud Run Admin API.
Serwer proxy aplikacji: wdrożona usługa używa serwera proxy aplikacji Gemini w Google AI Studio do owinięcia Ollama i zapewnienia zgodności usługi z interfejsem Gemini API.
Uprawnienia: jeśli chcesz zmodyfikować usługę Cloud Run, musisz mieć wymagane role uprawnień IAM przypisane do swojego konta w projekcie.
Uwierzytelnianie: gdy wdrażasz usługę Cloud Run z Google AI Studio, usługa jest domyślnie wdrażana z dostępem publicznym (bez uwierzytelniania) (opcja --allow-unauthenticated). Aby korzystać z silniejszego mechanizmu zabezpieczeń, zalecamy uwierzytelnianie się za pomocą uprawnień.

Co dalej?

Poznaj sprawdzone metody zabezpieczania i optymalizowania wydajności podczas wdrażania w Cloud Run z Google AI Studio.