如要執行 Gemma 模型,您必須做出兩個重要決定:1) 要執行哪個 Gemma 變化版本,以及 2) 要使用哪個 AI 執行架構執行模型?這兩項決定的關鍵問題,都與您和使用者可用來執行模型的硬體有關。
這份總覽可協助您做出這些決策,並開始使用 Gemma 模型。執行 Gemma 模型的一般步驟如下:
選擇架構
Gemma 模型與各種生成式 AI 執行架構相容。執行 Gemma 模型時,您擁有 (或將擁有) 哪些運算資源,是決定是否執行模型的關鍵因素之一。大多數相容的 AI 架構都需要專用硬體 (例如 GPU 或 TPU),才能有效執行 Gemma 模型。Google Colab 等工具可提供這些專門的運算資源,但數量有限。有些 AI 執行框架 (例如 Ollama 和 Gemma.cpp) 可讓您使用 x86 相容或 ARM 架構,在更常見的 CPU 上執行 Gemma。
以下是使用各種 AI 執行階段架構執行 Gemma 模型的指南:
- Ollama
- Hugging Face Transformers
- 適用於 JAX 的 Gemma 程式庫
- Keras
- PyTorch
- MediaPipe LLM Inference API
- Hugging Face Transformers
- Gemma.cpp
- vLLM
- Google Cloud Vertex AI
- Google Cloud Run
- Google Cloud Kubernetes Engine (GKE)
請確認您選擇的架構支援所要部署的 Gemma 模型格式,例如 Keras 原生格式、Safetensors 或 GGUF。
選取 Gemma 變化版本
Gemma 模型有許多變化版本和大小,包括基礎或核心 Gemma 模型,以及更專門的模型變化版本,例如 PaliGemma 和 DataGemma,以及 AI 開發人員社群在 Kaggle 和 Hugging Face 等網站上建立的許多變化版本。如果不確定要從哪個變化版本開始,請選取最新的 Gemma 核心指令調校 (IT) 模型,並使用最少的參數。這類 Gemma 模型的運算需求較低,且可回應各種提示,無須額外開發。
選擇 Gemma 變化版本時,請考量下列因素:
- Gemma 核心和其他變體系列 (例如 PaliGemma、CodeGemma):建議使用 Gemma (核心)。除了核心版本之外,Gemma 變化版本的架構也與核心模型相同,並經過訓練,可在特定工作中發揮更佳的效能。除非您的應用程式或目標與特定 Gemma 變化版本的專業領域相符,否則建議您從 Gemma 核心或基礎模型開始。
- 訓練指令 (IT)、預先訓練 (PT)、精修 (FT)、混合 (mix):建議使用 IT。
- Instruction-tuned (IT) Gemma 變化版本是經過訓練,可以人類語言回應各種指示或要求的模型。這些模型變化版本是最佳起點,因為它們可以在不需進一步訓練模型的情況下回應提示。
- 預先訓練 (PT) Gemma 變體是經過訓練,可對語言或其他資料進行推論的模型,但並未訓練過如何遵循人類指示。這些模型需要額外訓練或調整,才能有效執行工作,適用於想研究或開發模型及其架構功能的研究人員或開發人員。
- 精調 (FT) Gemma 變化版本可視為 IT 變化版本,但通常是為了執行特定工作或在特定生成式 AI 基準測試中表現良好而訓練。PaliGemma 變化版本系列包含多個 FT 變化版本。
- Mixed (mix) Gemma 變化版本是 PaliGemma 模型的版本,已使用各種指令進行指令微調,適合一般使用。
- Parameters:建議使用最小可用數量。一般來說,模型的參數越多,功能就越強大。不過,執行較大的模型需要更大且更複雜的運算資源,因此通常會減緩 AI 應用程式的開發速度。除非您已確定較小的 Gemma 模型無法滿足需求,否則請選擇參數較少的模型。
- 量化等級: 建議使用半精度 (16 位元),除非用於調整。量化是個複雜的議題,其重點在於資料的大小和精確度,進而決定生成式 AI 模型用於計算和產生回覆的記憶體量。在使用高精確度資料 (通常為 32 位元浮點資料) 訓練模型後,您可以修改 Gemma 等模型,以便使用精確度較低的資料,例如 16、8 或 4 位元大小。這些經過量化的 Gemma 模型仍可根據工作複雜度,提供良好效能,同時大幅減少運算和記憶體資源的使用量。不過,用於調整量化模型的工具有限,且可能無法在您選擇的 AI 開發架構中使用。一般來說,您必須以全精確度微調 Gemma 等模型,然後將產生的模型量化。
如要查看 Google 發布的重點 Gemma 模型清單,請參閱「Gemma 模型入門」一文的「Gemma 模型清單」一節。
執行產生和推論要求
選取 AI 執行架構和 Gemma 變數後,您就可以開始執行模型,並提示模型產生內容或完成工作。如要進一步瞭解如何使用特定架構執行 Gemma,請參閱「選擇架構」一節中提供的相關指南。
提示格式設定
所有經過指令調整的 Gemma 變化版本都有特定提示格式規定。其中部分格式規定會由您用於執行 Gemma 模型的架構自動處理,但如果您要將提示資料直接傳送至符號產生器,就必須加入特定標記,而標記規定可能會因您使用的 Gemma 變化版本而異。如要瞭解 Gemma 變化版本提示格式和系統操作說明,請參閱下列指南: