使用 Google AI Studio 将 Gemma 3 部署到 Cloud Run

本指南介绍了如何在 Google AI Studio 中一键在 Cloud Run 上部署 Gemma 3 开放模型。

Google AI Studio 是一个基于浏览器的平台,可让您快速尝试各种模型,使用不同的提示进行实验。输入聊天提示以设计使用所选 Gemma 3 模型的原型 Web 应用后,您可以选择部署到 Cloud Run,以便在支持 GPU 的 Cloud Run 服务上运行 Gemma 模型。

使用 Google AI Studio 将生成的前端服务部署到 Cloud Run 后,您可以跳过准备容器的大部分设置步骤,因为 Cloud Run 提供了一个预构建容器,用于在支持 Google Gen AI SDK 的 Cloud Run 上提供 Gemma 开放模型。

Google AI Studio 使用入门

本部分将指导您使用 Google AI Studio 将 Gemma 3 部署到 Cloud Run。

  1. 在 Google AI Studio 中选择一个 Gemma 模型。

    前往 Google AI Studio

    聊天页面的运行设置面板中,使用默认的 Gemma 模型,或选择其中一个 Gemma 模型。

  2. 在顶栏中,选择查看更多操作,然后点击部署到 Cloud Run

  3. Deploy Gemma 3 on Google Cloud Run 对话框中,按照提示创建新的 Google Cloud 项目,或选择现有项目。如果没有关联的结算账号,系统可能会提示您启用结算功能。

  4. Google AI Studio 验证您的项目后,点击部署到 Google Cloud

  5. Gemma 3 模型成功部署到 Google Cloud 后,对话框会显示以下内容:

    • 运行 Gemma 3 和 Ollama 的 Cloud Run 服务的 Cloud Run 端点网址。
    • 生成的 API 密钥,用于通过 Gemini API 库进行身份验证。此密钥配置为部署的 Cloud Run 服务的环境变量,用于授权传入的请求。我们建议您修改 API 密钥以使用 IAM 身份验证。如需了解详情,请参阅安全地与 Google Gen AI SDK 交互
    • 指向 Google Cloud 控制台中 Cloud Run 服务的链接。如需了解 Cloud Run 服务的默认配置设置,请访问相应链接,然后选择修改并部署新的修订版本以查看或修改配置设置。
  6. 如需查看用于创建 Cloud Run 服务的 Gemini API 示例代码,请选择获取代码

  7. 可选:复制代码并根据需要进行修改。

在代码中,您可以将已部署的 Cloud Run 端点和 API 密钥与 Google Gen AI SDK 搭配使用。

例如,如果您使用的是 Google Gen AI SDK for Python,Python 代码可能如下所示:

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

注意事项

从 Google AI Studio 部署 Cloud Run 服务时,请考虑以下事项:

  • 价格Cloud Run 是一项可计费的组件。如需根据您的预计使用量来估算费用,请使用价格计算器
  • 配额:Cloud Run 会自动向 Cloud Run Admin API 请求 Request Total Nvidia L4 GPU allocation, per project per region 配额。
  • 应用代理服务器:部署的服务使用 Google AI Studio Gemini 应用代理服务器封装 Ollama,使您的服务与 Gemini API 兼容。
  • 权限:如果您需要修改 Cloud Run 服务,必须向您项目中的账号授予必需的 IAM 角色
  • 身份验证:默认情况下,当您从 Google AI Studio 部署 Cloud Run 服务时,系统会采用公共(未经身份验证)访问权限(--allow-unauthenticated 标志)部署该服务。如需使用更强大的安全机制,我们建议您使用 IAM 进行身份验证

后续步骤

了解在从 Google AI Studio 部署到 Cloud Run 时如何确保安全并优化性能的最佳实践。