Google Cloud 平台提供許多服務,可用於部署及提供 Gemma 開放模型,包括:
Vertex AI
Vertex AI 是 Google Cloud 平台,可快速建構及擴充機器學習專案,無須具備內部 MLOps 專業知識。Vertex AI 提供控制台,可讓您使用多種模型,並提供端對端機器學習運作功能和無伺服器體驗,以便簡化開發作業。
您可以使用 Vertex AI 做為 Gemma 的下游應用程式,Gemma 是 Model Garden 中精選的模型集合。舉例來說,您可以從 Gemma 實作項目移植權重,並使用 Vertex AI 提供該版本的 Gemma 來取得預測結果。
如需詳細資訊,請參閱下列頁面:
- Vertex AI 簡介:開始使用 Vertex AI。
- Gemma 與 Vertex AI:使用 Gemma 開放模型與 Vertex AI。
- 使用 KerasNLP 微調 Gemma 並部署至 Vertex AI:使用 Keras 微調 Gemma 的端對端筆記本。
Cloud Run
Cloud Run 是一個全代管運算平台,可讓您在 Google 可擴充的基礎架構上執行程式碼、函式或容器。
Cloud Run 提供隨選、快速啟動、縮減為零的 GPU,讓您以即付即用的模式,為 Gemma 等開放式模型提供服務。
如要進一步瞭解如何在 Cloud Run 上執行 Gemma,請參閱下列頁面:
- 在 Cloud Run 上使用 GPU 的最佳做法
- 使用 Ollama 在 Cloud Run GPU 上執行 Gemma 推論
- 使用 vLLM 在 Cloud Run GPU 上執行 Gemma 推論
- 使用 Transformers.js 在 Cloud Run GPU 上執行 Gemma 推論
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) 是 Google Cloud 提供的代管式 Kubernetes 服務,可讓您透過 Google 基礎架構大規模部署及操作容器化應用程式。您可以使用下列 LLM 服務架構,在 GKE 上透過 Cloud Tensor Processing Unit (TPU) 和圖形處理器 (GPU) 提供 Gemma:
- 使用 vLLM 在 GKE 上使用 GPU 提供 Gemma
- 使用 TGI 在 GKE 上透過 GPU 提供 Gemma
- 使用 Triton 和 TensorRT-LLM 在 GKE 上使用 GPU 提供 Gemma
- 透過 JetStream 在 GKE 上使用 TPU 提供 Gemma
- 透過 Saxml 在 GKE 上使用 TPU 提供 Gemma
在 GKE 上提供 Gemma 服務,您就能導入可用於正式環境的穩固推論服務解決方案,同時享有代管 Kubernetes 的所有優點,包括高效的擴充性和更高的可用性。
如需詳細資訊,請參閱下列頁面:
- GKE 簡介:開始使用 Google Kubernetes Engine (GKE)
- GKE 中的 AI/機器學習自動化調度管理:使用 GKE 執行最佳化的 AI/機器學習工作負載
Dataflow ML
Dataflow ML 是 Google Cloud 平台,可用於部署及管理完整的機器學習工作流程。透過 Dataflow ML,您可以使用資料處理工具準備資料,以便進行模型訓練,然後使用 Gemma 等模型,透過批次和串流管道執行本機和遠端推論。
您可以使用 Dataflow ML,透過幾行程式碼將 Gemma 無縫整合至 Apache Beam 推論管道,以便擷取資料、驗證及轉換資料、將文字輸入內容提供給 Gemma,並產生文字輸出內容。
如需詳細資訊,請參閱下列頁面:
- 搭配 Dataflow 使用 Gemma 開放式模型:開始使用 Dataflow 中的 Gemma。
- 使用 Gemma 開放式模型執行推論:在 Apache Beam 推論管道中使用 Gemma 的操作說明。