使用 Google AI Studio 将 Gemma 3 部署到 Cloud Run

本指南介绍了如何在 Google AI Studio 中一键在 Cloud Run 上部署 Gemma 3 开放模型。

Google AI Studio 是一个基于浏览器的平台，可让您快速尝试各种模型，使用不同的提示进行实验。输入聊天提示以设计使用所选 Gemma 3 模型的原型 Web 应用后，您可以选择部署到 Cloud Run，以便在支持 GPU 的 Cloud Run 服务上运行 Gemma 模型。

使用 Google AI Studio 将生成的前端服务部署到 Cloud Run 后，您可以跳过准备容器的大部分设置步骤，因为 Cloud Run 提供了一个预构建容器，用于在支持 Google Gen AI SDK 的 Cloud Run 上提供 Gemma 开放模型。

Google AI Studio 使用入门

本部分将指导您使用 Google AI Studio 将 Gemma 3 部署到 Cloud Run。

在 Google AI Studio 中选择一个 Gemma 模型。

前往 Google AI Studio

在聊天页面的运行设置面板中，使用默认的 Gemma 模型，或选择其中一个 Gemma 模型。
在顶栏中，选择查看更多操作，然后点击部署到 Cloud Run。
在 Deploy Gemma 3 on Google Cloud Run 对话框中，按照提示创建新的 Google Cloud 项目，或选择现有项目。如果没有关联的结算账号，系统可能会提示您启用结算功能。
Google AI Studio 验证您的项目后，点击部署到 Google Cloud。
Gemma 3 模型成功部署到 Google Cloud 后，对话框会显示以下内容：
- 运行 Gemma 3 和 Ollama 的 Cloud Run 服务的 Cloud Run 端点网址。
- 生成的 API 密钥，用于通过 Gemini API 库进行身份验证。此密钥配置为部署的 Cloud Run 服务的环境变量，用于授权传入的请求。我们建议您修改 API 密钥以使用 IAM 身份验证。如需了解详情，请参阅安全地与 Google Gen AI SDK 交互。
- 指向 Google Cloud 控制台中 Cloud Run 服务的链接。如需了解 Cloud Run 服务的默认配置设置，请访问相应链接，然后选择修改并部署新的修订版本以查看或修改配置设置。
如需查看用于创建 Cloud Run 服务的 Gemini API 示例代码，请选择获取代码。
可选：复制代码并根据需要进行修改。

在代码中，您可以将已部署的 Cloud Run 端点和 API 密钥与 Google Gen AI SDK 搭配使用。

例如，如果您使用的是 Google Gen AI SDK for Python，Python 代码可能如下所示：

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

注意事项

从 Google AI Studio 部署 Cloud Run 服务时，请考虑以下事项：

价格：Cloud Run 是一项可计费的组件。如需根据您的预计使用量来估算费用，请使用价格计算器。
配额：Cloud Run 会自动向 Cloud Run Admin API 请求 Request Total Nvidia L4 GPU allocation, per project per region 配额。
应用代理服务器：部署的服务使用 Google AI Studio Gemini 应用代理服务器封装 Ollama，使您的服务与 Gemini API 兼容。
权限：如果您需要修改 Cloud Run 服务，必须向您项目中的账号授予必需的 IAM 角色。
身份验证：默认情况下，当您从 Google AI Studio 部署 Cloud Run 服务时，系统会采用公共（未经身份验证）访问权限（--allow-unauthenticated 标志）部署该服务。如需使用更强大的安全机制，我们建议您使用 IAM 进行身份验证。

后续步骤

了解在从 Google AI Studio 部署到 Cloud Run 时如何确保安全并优化性能的最佳实践。