Google AI Edge Portal 隆重推出：大規模基準測試 Edge AI。申請在非公開預先發布版期間要求存取權。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Google AI Edge 堆疊部署微調後的 Gemma 270m 模型

本教學課程將逐步說明如何在 Android 範例應用程式中，部署自訂 Gemma 模型。

在本教學課程中，我們將：

從微調模型著手
使用 AI Edge Torch 程式庫轉換微調模型
1. 這會將 HuggingFace 檢查點轉換為 .litertlm 檔案
評估微調模型的品質
執行 adb 指令，將自訂模型推送至測試裝置
1. 這會將 .litertlm 格式的模型推送到 Android 裝置，以進行本機測試
執行 Pirate Gemma 範例應用程式
1. 這會使用 LiteRT-LM Kotlin 程式庫，在 Android 應用程式範例中對微調模型執行推論作業

步驟 1：從微調模型開始

在本教學課程中，我們將從微調模型開始。為清楚呈現基礎模型與微調模型的差異，我們以Gemma 270m 基礎模型為例，微調成海盜的說話方式。

您可以在 https://huggingface.co/erintwalsh/pirate-gemma找到預先微調的 Pirate Gemma 模型。

如要進一步瞭解如何微調模型，請參閱 Gemma 食譜和 Unsloth 指南。

步驟 2：在指令列中轉換及執行自訂模型

您已在 HuggingFace 發布自訂模型，現在可以使用 AI Edge Torch 程式庫下載該模型，並轉換為 .litertlm 格式。

必要條件

請務必在裝置上安裝 uv 工具和 Python 3.11 以上版本。

轉換模型

uv tool install litert-torch-nightly

litert-torch export_hf \
  --model=[YOUR-HF-USERNAME]/pirate-gemma \
  --output_dir=/tmp/pirate-gemma \
  --externalize_embedder

在本機執行模型

uv tool install litert-lm

litert-lm run  \
  /tmp/pirate-gemma/model.litertlm \
  --prompt="Where is the nearest buried treasure?"

步驟 3：評估模型品質

評估微調品質

在本機執行模型後，您可以使用 AI Edge 評估 CLI 工具，分析微調的 LiteRT-LM 模型品質。這項工具提供內建的轉換後品質同位驗證功能，可使用公開資料集，比較原始 HF 模型和轉換後的 LiteRT-LM 模型。除了公開資料集，您還能使用自己的資料和特定指標，建立自訂評估工作。如要使用 LLM-as-a-Judge 評估這個微調模型，請參閱自訂工作範例。

uv tool install ai-edge-eval

GEMINI_API_KEY="your_actual_api_key_here"
ai_edge_eval \
  --framework custom \
  --runner litert-lm \
  --model-path /path/to/your/model.litertlm \
  --custom-tasks-file pirate_gemma_custom_task.py \
  --tasks pirate_gemma_eval \
  --output-dir /tmp/results

步驟 4：將本機模型推送至測試裝置

使用這些 adb 指令，將剛執行的模型推送至實體 Android 裝置。

adb shell rm -r /data/local/tmp/llm/ # Remove any previously loaded models

adb shell mkdir -p /data/local/tmp/llm/

adb push /tmp/pirate-gemma/model.litertlm  /data/local/tmp/llm/pirate-gemma.litertlm

步驟 5：使用 Captain Gemma 範例應用程式，對自訂模型執行推論

Captain Gemma 應用程式可示範如何與裝置上的模型介面互動。您可以在 GitHub 上找到這個存放區，並複製到 Android Studio 中執行。

開啟 Captain Gemma 範例應用程式，並在裝置上運作執行。這個應用程式使用 Android Compose 元素，示範如何在 Android 裝置上對微調模型執行推論。這個應用程式會接收使用者的文字輸入內容，並傳回微調 Gemma 模型的海盜智慧。

在測試裝置上執行應用程式，您剛才已將 .litertlm 檔案推送至該裝置。輸入查詢，並在白色語音方塊中查看模型輸出內容。

範例應用程式的主畫面

程式碼範例

請參閱 Captain Gemma 程式碼範例，瞭解如何使用 LiteRT-LM API 設定模型和執行推論。

步驟 6：模型部署

完成自訂模型的本機測試並準備好部署後，您可以選擇託管模型，例如：

您可以將 .litertlm 檔案推送至先前建立的 HuggingFace 模型存放區，並使用 HuggingFace API 在應用程式中下載該檔案
您可以使用 Firebase 等代管服務，這類服務會提供 API，供應用程式擷取模型網址，並下載 Android 或 iOS 適用的模型。