使用 Google Cloud 部署 Gemma

Google Cloud 平台提供許多服務，可用於部署及提供 Gemma 開放模型，包括：

Vertex AI
Cloud Run
Google Kubernetes Engine
Dataflow ML

Vertex AI

Vertex AI 是 Google Cloud 平台，可快速建構及擴充機器學習專案，無須具備內部 MLOps 專業知識。Vertex AI 提供控制台，可讓您使用多種模型，並提供端對端機器學習運作功能和無伺服器體驗，以便簡化開發作業。

您可以使用 Vertex AI 做為 Gemma 的下游應用程式，Gemma 是 Model Garden 中精選的模型集合。舉例來說，您可以從 Gemma 實作項目移植權重，並使用 Vertex AI 提供該版本的 Gemma 來取得預測結果。

如需詳細資訊，請參閱下列頁面：

Vertex AI 簡介：開始使用 Vertex AI。
Gemma 與 Vertex AI：使用 Gemma 開放模型與 Vertex AI。
使用 KerasNLP 微調 Gemma 並部署至 Vertex AI：使用 Keras 微調 Gemma 的端對端筆記本。

Cloud Run

Cloud Run 是一個全代管運算平台，可讓您在 Google 可擴充的基礎架構上執行程式碼、函式或容器。

Cloud Run 提供隨選、快速啟動、縮減為零的 GPU，讓您以即付即用的模式，為 Gemma 等開放式模型提供服務。

如要進一步瞭解如何在 Cloud Run 上執行 Gemma，請參閱下列頁面：

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) 是 Google Cloud 提供的代管式 Kubernetes 服務，可讓您透過 Google 基礎架構大規模部署及操作容器化應用程式。您可以使用下列 LLM 服務架構，在 GKE 上透過 Cloud Tensor Processing Unit (TPU) 和圖形處理器 (GPU) 提供 Gemma：

在 GKE 上提供 Gemma 服務，您就能導入可用於正式環境的穩固推論服務解決方案，同時享有代管 Kubernetes 的所有優點，包括高效的擴充性和更高的可用性。

如需詳細資訊，請參閱下列頁面：

GKE 簡介：開始使用 Google Kubernetes Engine (GKE)
GKE 中的 AI/機器學習自動化調度管理：使用 GKE 執行最佳化的 AI/機器學習工作負載

Dataflow ML

Dataflow ML 是 Google Cloud 平台，可用於部署及管理完整的機器學習工作流程。透過 Dataflow ML，您可以使用資料處理工具準備資料，以便進行模型訓練，然後使用 Gemma 等模型，透過批次和串流管道執行本機和遠端推論。

您可以使用 Dataflow ML，透過幾行程式碼將 Gemma 無縫整合至 Apache Beam 推論管道，以便擷取資料、驗證及轉換資料、將文字輸入內容提供給 Gemma，並產生文字輸出內容。

如需詳細資訊，請參閱下列頁面：

搭配 Dataflow 使用 Gemma 開放式模型：開始使用 Dataflow 中的 Gemma。
使用 Gemma 開放式模型執行推論：在 Apache Beam 推論管道中使用 Gemma 的操作說明。