執行 Gemma 內容產生和推論

如要執行 Gemma 模型,有兩項重要決策:1) 要執行哪個 Gemma 變體版本,以及 2) 要使用哪個 AI 執行架構來執行。這兩項決定的關鍵問題,在於您和使用者可用的硬體,是否足以執行模型。

這份總覽可協助您做出這些決策,並開始使用 Gemma 模型。執行 Gemma 模型的一般步驟如下:

選擇架構

Gemma 模型與各種生成式 AI 執行架構相容。執行 Gemma 模型時,其中一項關鍵決策因素是您可用的 (或將可用的) 運算資源。大多數相容的 AI 架構都需要 GPU 或 TPU 等專用硬體,才能有效執行 Gemma 模型。Google Colab 等工具可提供這些專用運算資源,但數量有限。部分 AI 執行架構 (例如 OllamaGemma.cpp) 支援使用 x86 相容或 ARM 架構,在較常見的 CPU 上執行 Gemma。

以下是使用各種 AI 執行階段架構執行 Gemma 模型的指南:

請確認所選架構支援您預計部署的 Gemma 模型格式,例如 Keras 原生格式、Safetensors 或 GGUF。

選取 Gemma 變體

Gemma 模型提供多種變體和大小,包括基礎或核心 Gemma 模型,以及更多專業模型變體,例如 PaliGemmaDataGemma,還有 AI 開發人員社群在 KaggleHugging Face 等網站上建立的許多變體。如果不確定要從哪個變體開始,請選取參數數量最少的最新 Gemma核心指令微調 (IT) 模型。這類 Gemma 模型運算需求較低,且能回應各種提示,不需要額外開發。

選擇 Gemma 變體時,請考慮下列因素:

  • Gemma 核心和其他變體系列,例如 PaliGemma、CodeGemma建議使用 Gemma (核心)。除了核心版本,Gemma 變體也採用與核心模型相同的架構,並經過訓練,可更出色地執行特定工作。除非您的應用程式或目標與特定 Gemma 變體的專業領域相符,否則建議從 Gemma 核心或基礎模型開始。
  • 指令調整 (IT)、預先訓練 (PT)、微調 (FT)、混合 (mix)建議使用指令調整。
    • 指令微調 (IT) Gemma 變體模型經過訓練,可回應各種自然語言指令或要求。這些模型變體是最佳的起點,因為不需進一步訓練模型,就能回應提示。
    • 預先訓練 (PT) Gemma 變體模型經過訓練,可推斷語言或其他資料,但未經過訓練,因此無法遵循人類指令。這類模型需要額外訓練或調整,才能有效執行工作,適合想研究或開發模型功能和架構的研究人員或開發人員。
    • 微調 (FT) Gemma 變體可視為 IT 變體,但通常經過訓練,可執行特定工作,或在特定生成式 AI 基準上表現良好。PaliGemma 變體系列包含多種 FT 變體。
    • 混合 (mix) Gemma 子類是 PaliGemma 模型的版本,經過各種指令的指令微調,適合一般用途。
  • 參數建議使用可用的最小數字。一般來說,模型擁有的參數越多,功能就越強大。不過,執行較大的模型需要更大、更複雜的運算資源,而且通常會減緩 AI 應用程式的開發速度。除非您已確定較小的 Gemma 模型無法滿足需求,否則請選擇參數較少的模型。
  • 量化層級: 建議使用半精度 (16 位元),但微調除外。量化是複雜的主題,歸結來說就是資料的大小和精確度,以及生成式 AI 模型用於計算和生成回覆的記憶體量。以高精確度資料 (通常是 32 位元浮點資料) 訓練模型後,可以修改 Gemma 等模型,改用精確度較低的資料,例如 16 位元、8 位元或 4 位元大小。這些量化 Gemma 模型仍可順利執行工作 (視工作複雜度而定),但使用的運算和記憶體資源會大幅減少。不過,用於調整量化模型的工具有限,而且可能無法在您選擇的 AI 開發架構中使用。一般來說,您必須以完整精確度微調 Gemma 等模型,然後量化產生的模型。

如要查看 Google 發布的 Gemma 模型清單,請參閱「開始使用 Gemma 模型」頁面。

執行生成和推論要求

選取 AI 執行架構和 Gemma 變體後,即可開始執行模型,並提示模型生成內容或完成工作。如要進一步瞭解如何使用特定架構執行 Gemma,請參閱「選擇架構」一節中連結的指南。

提示格式

所有經過指令微調的 Gemma 變體都有特定的提示格式規定。您用來執行 Gemma 模型的架構會自動處理部分格式規定,但如果直接將提示資料傳送至權杖化工具,就必須新增特定標記,且標記規定可能會因您使用的 Gemma 變體而異。如要瞭解 Gemma 變體提示格式和系統指令,請參閱下列指南: