Развертывание Gemma 3 в облаке с помощью Google AI Studio

В этом руководстве показано, как развернуть открытые модели Gemma 3 в Cloud Run одним щелчком мыши в Google AI Studio .

Google AI Studio — это браузерная платформа, которая позволяет быстро опробовать модели и поэкспериментировать с различными подсказками. После ввода подсказки чата для разработки прототипа веб-приложения, использующего выбранную модель Gemma 3, вы можете выбрать Deploy to Cloud Run , чтобы запустить модель Gemma на сервисе Cloud Run с поддержкой GPU .

Используя Google AI Studio для развертывания сгенерированной интерфейсной службы в Cloud Run, вы пропускаете большинство этапов настройки по подготовке контейнера, поскольку Cloud Run предоставляет готовый контейнер для обслуживания открытых моделей Gemma в Cloud Run, который поддерживает Google Gen AI SDK.

Начните работу с Google AI Studio

В этом разделе вы узнаете, как развернуть Gemma 3 в Cloud Run с помощью Google AI Studio.

  1. Выберите модель Gemma в Google AI Studio.

    Перейти в Google AI Studio

    На панели настроек запуска на странице чата используйте модель Gemma по умолчанию или выберите одну из моделей Gemma.

  2. На верхней панели выберите «Просмотреть больше действий» и нажмите «Развернуть в облаке» .

  3. В диалоговом окне Deploy Gemma 3 on Google Cloud Run следуйте подсказкам, чтобы создать новый проект Google Cloud, или выберите существующий проект. Вам может быть предложено включить биллинг, если нет связанного аккаунта для биллинга.

  4. После того, как Google AI Studio проверит ваш проект, нажмите «Развернуть в Google Cloud» .

  5. После успешного развертывания модели Gemma 3 в Google Cloud в диалоговом окне отобразится следующее:

    • URL-адрес конечной точки Cloud Run вашей службы Cloud Run, на которой запущены Gemma 3 и Ollama.
    • Сгенерированный API-ключ, который используется для аутентификации с помощью библиотек API Gemini . Этот ключ настраивается как переменная среды развернутой службы Cloud Run для авторизации входящих запросов. Мы рекомендуем вам изменить API-ключ для использования аутентификации IAM. Для получения более подробной информации см. Безопасное взаимодействие с Google Gen AI SDK .
    • Ссылка на службу Cloud Run в консоли Google Cloud. Чтобы узнать о настройках конфигурации по умолчанию для службы Cloud Run, перейдите по ссылке, затем выберите Изменить и развернуть новую версию, чтобы просмотреть или изменить настройки конфигурации.
  6. Чтобы просмотреть пример кода API Gemini, который использовался для создания сервиса Cloud Run, выберите Получить код .

  7. Необязательно: скопируйте код и внесите необходимые изменения.

С помощью вашего кода вы можете использовать развернутую конечную точку Cloud Run и ключ API с Google Gen AI SDK .

Например, если вы используете Google Gen AI SDK для Python , код Python может выглядеть следующим образом:

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

Соображения

При развертывании сервиса Cloud Run из Google AI Studio учтите следующее:

  • Цены : Cloud Run — это платный компонент. Чтобы рассчитать стоимость на основе вашего прогнозируемого использования, воспользуйтесь калькулятором цен .
  • Квота : Cloud Run автоматически делает запрос на Request Total Nvidia L4 GPU allocation, per project per region квоты в рамках API администратора Cloud Run.
  • Прокси-сервер приложений : развернутая служба использует прокси-сервер приложений Gemini от Google AI Studio для оболочки Ollama и обеспечения совместимости вашей службы с API Gemini.
  • Разрешения : если вам необходимо изменить службу Cloud Run, вашей учетной записи в проекте должны быть предоставлены необходимые роли IAM .
  • Аутентификация : по умолчанию при развертывании службы Cloud Run из Google AI Studio служба развертывается с публичным (неаутентифицированным) доступом (флаг --allow-unauthenticated ). Чтобы использовать более надежный механизм безопасности, мы рекомендуем вам аутентифицироваться с помощью IAM .

Что дальше?

Узнайте о передовых методах обеспечения безопасности и оптимизации производительности при развертывании в Cloud Run из Google AI Studio .