本指南介绍了如何在 Google AI Studio 中一键在 Cloud Run 上部署 Gemma 3 开放模型。
Google AI Studio 是一个基于浏览器的平台,可让您快速尝试各种模型,使用不同的提示进行实验。输入聊天提示以设计使用所选 Gemma 3 模型的原型 Web 应用后,您可以选择部署到 Cloud Run,以便在支持 GPU 的 Cloud Run 服务上运行 Gemma 模型。
使用 Google AI Studio 将生成的前端服务部署到 Cloud Run 后,您可以跳过准备容器的大部分设置步骤,因为 Cloud Run 提供了一个预构建容器,用于在支持 Google Gen AI SDK 的 Cloud Run 上提供 Gemma 开放模型。
Google AI Studio 使用入门
本部分将指导您使用 Google AI Studio 将 Gemma 3 部署到 Cloud Run。
在 Google AI Studio 中选择一个 Gemma 模型。
在聊天页面的运行设置面板中,使用默认的 Gemma 模型,或选择其中一个 Gemma 模型。
在顶栏中,选择查看更多操作,然后点击部署到 Cloud Run。
在 Deploy Gemma 3 on Google Cloud Run 对话框中,按照提示创建新的 Google Cloud 项目,或选择现有项目。如果没有关联的结算账号,系统可能会提示您启用结算功能。
Google AI Studio 验证您的项目后,点击部署到 Google Cloud。
Gemma 3 模型成功部署到 Google Cloud 后,对话框会显示以下内容:
- 运行 Gemma 3 和 Ollama 的 Cloud Run 服务的 Cloud Run 端点网址。
- 生成的 API 密钥,用于通过 Gemini API 库进行身份验证。此密钥配置为部署的 Cloud Run 服务的环境变量,用于授权传入的请求。我们建议您修改 API 密钥以使用 IAM 身份验证。如需了解详情,请参阅安全地与 Google Gen AI SDK 交互。
- 指向 Google Cloud 控制台中 Cloud Run 服务的链接。如需了解 Cloud Run 服务的默认配置设置,请访问相应链接,然后选择修改并部署新的修订版本以查看或修改配置设置。
如需查看用于创建 Cloud Run 服务的 Gemini API 示例代码,请选择获取代码。
可选:复制代码并根据需要进行修改。
在代码中,您可以将已部署的 Cloud Run 端点和 API 密钥与 Google Gen AI SDK 搭配使用。
例如,如果您使用的是 Google Gen AI SDK for Python,Python 代码可能如下所示:
from google import genai
from google.genai.types import HttpOptions
# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))
# Example: Generate content (non-streaming)
response = client.models.generate_content(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["How does AI work?"]
)
print(response.text)
# Example: Stream generate content
response = client.models.generate_content_stream(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
print(chunk.text, end="")
注意事项
从 Google AI Studio 部署 Cloud Run 服务时,请考虑以下事项:
- 价格:Cloud Run 是一项可计费的组件。如需根据您的预计使用量来估算费用,请使用价格计算器。
- 配额:Cloud Run 会自动向 Cloud Run Admin API 请求
Request Total Nvidia L4 GPU allocation, per project per region配额。 - 应用代理服务器:部署的服务使用 Google AI Studio Gemini 应用代理服务器封装 Ollama,使您的服务与 Gemini API 兼容。
- 权限:如果您需要修改 Cloud Run 服务,必须向您项目中的账号授予必需的 IAM 角色。
- 身份验证:默认情况下,当您从 Google AI Studio 部署 Cloud Run 服务时,系统会采用公共(未经身份验证)访问权限(
--allow-unauthenticated标志)部署该服务。如需使用更强大的安全机制,我们建议您使用 IAM 进行身份验证。
后续步骤
了解在从 Google AI Studio 部署到 Cloud Run 时如何确保安全并优化性能的最佳实践。