如果沒有合適的硬體,執行 Gemma 等生成式人工智慧 (AI) 模型可能會很困難。llama.cpp 和 Ollama 等開放原始碼架構可設定預先設定的執行階段環境,讓您以較少的運算資源執行 Gemma 版本,因此更容易使用。事實上,您可以使用 llama.cpp 和 Ollama,在筆電或其他小型運算裝置上執行 Gemma 版本,不必使用圖形處理單元 (GPU)。
為了以較少的運算資源執行 Gemma 模型,llama.cpp 和 Ollama 架構會使用 Georgi Gerganov Unified Format (GGUF) 模型檔案格式的量化模型版本。這些量化模型經過修改,可使用較小且不精確的資料處理要求。在量化模型中使用較不精確的資料處理要求,通常會降低模型輸出內容的品質,但也能減少運算資源費用。
本指南說明如何設定及使用 Ollama 執行 Gemma,產生文字回覆。
設定
本節說明如何設定 Ollama,並準備 Gemma 模型執行個體來回應要求,包括要求模型存取權、安裝軟體,以及在 Ollama 中設定 Gemma 模型。
安裝 Ollama
如要透過 Ollama 使用 Gemma,您必須先在運算裝置上,下載並安裝 Ollama 軟體。
如要下載及安裝 Ollama,請按照下列步驟操作:
- 前往下載頁面:https://ollama.com/download
- 選取作業系統,然後按一下「下載」按鈕,或按照下載頁面的操作說明進行。
- 執行安裝程式來安裝應用程式。
- Windows:執行安裝程式 *.exe 檔案,然後按照指示操作。
- Mac:解壓縮 zip 封裝,然後將 Ollama 應用程式資料夾移至「應用程式」目錄。
- Linux:按照 Bash 指令碼安裝程式中的指示操作。
開啟終端機視窗並輸入下列指令,確認 Ollama 已安裝:
ollama --version
畫面會顯示類似下列內容的回應:ollama version is #.#.##。如果沒有看到這個結果,請確認 Ollama 可執行檔已新增至作業系統路徑。
在 Ollama 中設定 Gemma
Ollama 安裝套件預設不含任何模型。您可以使用 pull 指令下載模型。
如要在 Ollama 中設定 Gemma,請按照下列步驟操作:
開啟終端機視窗並輸入下列指令,下載及設定預設的 Gemma 4 變體:
ollama pull gemma4
下載完成後,您可以使用下列指令確認模型是否可用:
ollama list
模型指定為 <model_name>:<tag>。Gemma 4 提供四種大小:E2B、E4B、26B 和 31B 參數:
- E2B 參數
gemma4:e2b - E4B 參數
gemma4:e4b - 26B A4B 參數
gemma4:26b - 31B 參數
gemma4:31b
您可以在 Ollama 網站上找到可用的標記,包括 Gemma 4、Gemma 3n、Gemma 3、Gemma 2 和 Gemma。
生成回覆
在 Ollama 中安裝 Gemma 模型後,您可以使用 Ollama 的指令列介面 run 指令,立即生成回覆。Ollama 也會設定網路服務來存取模型,您可以使用 curl 指令進行測試。
如要透過指令列產生回覆:
在終端機視窗中輸入下列指令:
ollama run gemma4 "roses are red"如要使用視覺輸入,請加入圖片路徑:
ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
如要使用 Ollama 本機網路服務產生回覆,請按照下列步驟操作:
在終端機視窗中輸入下列指令:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"roses are red"\ }'如要使用視覺輸入內容,請加入 Base64 編碼圖片清單:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"caption this image",\ "images":[...]\ }'
調整過的 Gemma 模型
Ollama 提供一系列官方 Gemma 模型變體,可立即使用,並以 GGUF 格式量化及儲存。您可以將自己微調的 Gemma 模型轉換為 GGUF 格式,然後搭配 Ollama 使用。Ollama 包含一些函式,可將微調模型從 Modelfile 格式轉換為 GGUF。如要進一步瞭解如何將微調模型轉換為 GGUF,請參閱 Ollama README。
後續步驟
使用 Ollama 執行 Gemma 後,即可開始實驗,並運用 Gemma 的生成式 AI 功能建構解決方案。Ollama 的指令列介面有助於建構指令碼解決方案。Ollama 本機網頁服務介面可用於建構實驗性應用程式和低用量應用程式。
- 試著使用 Ollama Web 服務整合,建立在本機執行的個人程式碼助理。
- 瞭解如何微調 Gemma 模型。
- 瞭解如何使用 Google Cloud Run 服務,透過 Ollama 執行 Gemma。
- 瞭解如何透過 Google Cloud 執行 Gemma。