LiteRT-LM 是可用於正式環境的開放原始碼推論架構,專為在邊緣裝置上部署高效能跨平台 LLM 而設計。
主要功能
- 跨平台支援:可在 Android、iOS、網頁和電腦上執行。
- 硬體加速:
- GPU:由 ML Drift 提供技術支援,同時支援機器學習和生成式 AI 模型。
- NPU:在搭載 Qualcomm 和 MediaTek 晶片的裝置上加速推論 (搶先體驗)。
- 多模態:支援視覺和音訊輸入。
- 工具使用:支援代理工作流程的函式呼叫。
- 支援多種模型:執行 Gemma、Llama、Phi-4、Qwen 等模型。
支援的後端和平台
| 平台 | CPU 支援 | GPU 支援 | NPU 支援 |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| 內嵌 | ✅ | - | - |
快速入門
想先試試看嗎?在繼續進行完整設定前,您可以先使用電腦的預先建構二進位檔,或行動裝置的 Google AI Edge Gallery 應用程式,立即執行 LiteRT-LM。
行動應用程式
Google AI Edge Gallery 是示範應用程式,可完全在手機上執行,提供最先進的生成式 AI 模型使用體驗,並採用 LiteRT-LM 技術。
Desktop CLI
下載 lit 二進位檔後,只要執行 lit 即可查看選項。
選擇平台
| 語言 | 狀態 | 最適合用於... | 說明文件 |
|---|---|---|---|
| Kotlin | ✅ 穩定版 |
原生 Android 應用程式和以 JVM 為基礎的電腦工具。已針對協同程式最佳化。 | Kotlin API 參考資料 |
| C++ | ✅ 穩定版 |
高效能的跨平台核心邏輯和嵌入式系統。 | C++ API 參考資料 |
| Swift | 🚀 開發版 |
原生整合 iOS 和 macOS,並提供專用的 Metal 支援。 | 即將推出 |
| Python | 🚀 開發版 |
快速原型設計、開發及桌面端指令碼編寫。 | 即將推出 |
支援的機型
下表列出部分完全支援 LiteRT-LM 且經過測試的模型。
注意:「Chat Ready」表示模型已針對對話進行調整 (指令調整)。除非用於特定完成項目,否則「基礎」模型通常需要微調,才能獲得最佳的對話成效。
| 型號 | 類型 | 量化 | 脈絡長度 | 大小 (MB) | 下載 |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | 準備好開始即時通訊 | 每個通道 4 位元 | 4096 | 557 | 下載 |
| Gemma-3n-E2B | 準備好開始即時通訊 | 每個通道 4 位元 | 4096 | 2965 | 下載 |
| Gemma-3n-E4B | 準備好開始即時通訊 | 每個通道 4 位元 | 4096 | 4235 | 下載 |
| FunctionGemma-270M | Base (需要微調) | 每個通道 8 位元 | 1024 | 288 | 微調指南 |
| ↪ TinyGarden-270M | 示範 | 每個通道 8 位元 | 1024 | 288 | 下載 / 試用應用程式 |
| Llama | |||||
| Llama-3.2-1B-Instruct | 準備好開始即時通訊 | 每個通道 8 位元 | 8192 | 1162 | 下載 |
| Llama-3.2-3B-Instruct | 準備好開始即時通訊 | 每個通道 8 位元 | 8192 | 2893 | 下載 |
| Phi | |||||
| phi-4-mini | 準備好開始即時通訊 | 每個通道 8 位元 | 4096 | 3728 | 下載 |
| Qwen | |||||
| qwen2.5-1.5b | 準備好開始即時通訊 | 每個通道 8 位元 | 4096 | 1524 | 下載 |
成效
下表列出在各種裝置上執行各模型的效能數據。請注意,基準測試的測量方式為 1024 個符記預先填入和 256 個符記解碼 (Android 裝置效能鎖定)。
| 型號 | 裝置 | 後端 | 預填 (每秒詞元數) | 解碼 (每秒詞元數) | 脈絡長度 |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 年 M3) |
CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 年 M3) |
CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 年 M3) |
CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
注意:首次在特定裝置上載入特定模型時,由於系統會最佳化權重,因此載入時間會比較長。由於快取功能,後續載入速度會更快。
模型託管與部署
如果模型超過「無線」下載限制 (通常約為 1.5 GB),就必須採用遠端擷取策略。
- Firebase:建議用於在 Android 和 iOS 上下載大型檔案。
- HuggingFace API:使用 HuggingFace API 直接擷取模型。
報表問題
如果遇到錯誤或有功能要求,請使用 LiteRT-LM GitHub Issues 頁面。