LiteRT-LM 總覽

LiteRT-LM 是可用於正式環境的開放原始碼推論架構,專為在邊緣裝置上部署高效能跨平台 LLM 而設計。

主要功能

  • 跨平台支援:可在 Android、iOS、網頁和電腦上執行。
  • 硬體加速:
    • GPU:由 ML Drift 提供技術支援,同時支援機器學習和生成式 AI 模型。
    • NPU:在搭載 Qualcomm 和 MediaTek 晶片的裝置上加速推論 (搶先體驗)。
  • 多模態:支援視覺和音訊輸入。
  • 工具使用:支援代理工作流程的函式呼叫。
  • 支援多種模型:執行 Gemma、Llama、Phi-4、Qwen 等模型。

支援的後端和平台

平台 CPU 支援 GPU 支援 NPU 支援
Android
iOS -
macOS -
Windows -
Linux -
內嵌 - -

快速入門

想先試試看嗎?在繼續進行完整設定前,您可以先使用電腦的預先建構二進位檔,或行動裝置的 Google AI Edge Gallery 應用程式,立即執行 LiteRT-LM。

行動應用程式

Google AI Edge Gallery 是示範應用程式,可完全在手機上執行,提供最先進的生成式 AI 模型使用體驗,並採用 LiteRT-LM 技術。

Desktop CLI

下載 lit 二進位檔後,只要執行 lit 即可查看選項。

選擇平台

語言 狀態 最適合用於... 說明文件
Kotlin
穩定版
原生 Android 應用程式和以 JVM 為基礎的電腦工具。已針對協同程式最佳化。 Kotlin API 參考資料
C++
穩定版
高效能的跨平台核心邏輯和嵌入式系統。 C++ API 參考資料
Swift 🚀
開發版
原生整合 iOS 和 macOS,並提供專用的 Metal 支援。 即將推出
Python 🚀
開發版
快速原型設計、開發及桌面端指令碼編寫。 即將推出

支援的機型

下表列出部分完全支援 LiteRT-LM 且經過測試的模型。

注意:「Chat Ready」表示模型已針對對話進行調整 (指令調整)。除非用於特定完成項目,否則「基礎」模型通常需要微調,才能獲得最佳的對話成效。

型號 類型 量化 脈絡長度 大小 (MB) 下載
Gemma
Gemma3-1B 準備好開始即時通訊 每個通道 4 位元 4096 557 下載
Gemma-3n-E2B 準備好開始即時通訊 每個通道 4 位元 4096 2965 下載
Gemma-3n-E4B 準備好開始即時通訊 每個通道 4 位元 4096 4235 下載
FunctionGemma-270M Base (需要微調) 每個通道 8 位元 1024 288 微調指南
↪ TinyGarden-270M 示範 每個通道 8 位元 1024 288 下載 / 試用應用程式
Llama
Llama-3.2-1B-Instruct 準備好開始即時通訊 每個通道 8 位元 8192 1162 下載
Llama-3.2-3B-Instruct 準備好開始即時通訊 每個通道 8 位元 8192 2893 下載
Phi
phi-4-mini 準備好開始即時通訊 每個通道 8 位元 4096 3728 下載
Qwen
qwen2.5-1.5b 準備好開始即時通訊 每個通道 8 位元 4096 1524 下載

成效

下表列出在各種裝置上執行各模型的效能數據。請注意,基準測試的測量方式為 1024 個符記預先填入和 256 個符記解碼 (Android 裝置效能鎖定)。

型號 裝置 後端 預填 (每秒詞元數) 解碼 (每秒詞元數) 脈絡長度
Gemma3-1B MacBook Pro
(2023 年 M3)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 年 M3)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 年 M3)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

注意:首次在特定裝置上載入特定模型時,由於系統會最佳化權重,因此載入時間會比較長。由於快取功能,後續載入速度會更快。

模型託管與部署

如果模型超過「無線」下載限制 (通常約為 1.5 GB),就必須採用遠端擷取策略。

  • Firebase:建議用於在 AndroidiOS 上下載大型檔案。
  • HuggingFace API:使用 HuggingFace API 直接擷取模型。

報表問題

如果遇到錯誤或有功能要求,請使用 LiteRT-LM GitHub Issues 頁面。