Google AI Edge Portal 隆重推出：大規模基準測試 Edge AI。申請在非公開預先發布版期間要求存取權。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

LiteRT-LM 總覽

LiteRT-LM 是可部署於正式環境的開放原始碼推論框架，專為在邊緣裝置上部署高效能的跨平台 LLM 而設計。

新功能 (v0.12.0)

Swift API：透過 Metal GPU 加速功能，將 LiteRT-LM 原生整合至 iOS 應用程式。請參閱 Swift 指南。
網頁 JavaScript API：使用網頁 GPU/CPU 在網頁瀏覽器中執行模型，效能極高。請參閱 JavaScript 指南。
LiteRT-LM CLI / Python API 更新：指令列介面和 Python API 現在支援 NPU，以及 Linux、macOS 和 Windows 的 CPU 和 GPU 後端。請參閱 CLI 指南。
社群維護的 Flutter API：使用社群 flutter_gemma 套件，建構跨平台的 Flutter 應用程式。請參閱 Flutter 指南。

Google AI Edge Gallery 螢幕截圖

Google AI Edge Gallery 是一項實驗性應用程式，旨在展示完全離線執行的裝置端生成式 AI 功能，使用的技術為 LiteRT-LM。

如需其他技術詳細資料，請參閱 HuggingFace 模型資訊卡。

平台 (裝置)	後端	預先填入 (tk/s)	解碼 (tk/s)	第一個詞元生成時間 (秒)	CPU 記憶體用量上限 (MB)
Android (S26 Ultra)	CPU	557	47	1.8	1733
Android (S26 Ultra)	GPU	3808	52	0.3	676
iOS (iPhone 17 Pro)	CPU	532	25	1.9	607
iOS (iPhone 17 Pro)	GPU	2878	56	0.3	1450
Linux (Arm 2.3 和 2.8 GHz、NVIDIA GeForce RTX 4090)	CPU	260	35	4	1628
Linux (Arm 2.3 和 2.8 GHz、NVIDIA GeForce RTX 4090)	GPU	11234	143	0.1	913
macOS (MacBook Pro M4)	CPU	901	42	1.1	736
macOS (MacBook Pro M4)	GPU	7835	160	0.1	1623
Windows (Intel LunarLake)	CPU	435	30	2.4	3505
Windows (Intel LunarLake)	GPU	3751	48	0.3	3540
IoT (Raspberry Pi 5 16GB)	CPU	133	8	7.8	1546

LiteRT-LM 提供多種程式設計語言和平台的 API，可協助您快速建構裝置端 AI 應用程式。選取下方指南即可開始：

語言	狀態	適用情境	說明文件
CLI	✅ 穩定版	不到 1 分鐘即可開始使用 LiteRT-LM。	CLI 指南
Python	✅ 穩定版	在桌機和 Raspberry Pi 上快速製作原型和開發。	Python 指南
Kotlin	✅ 穩定版	Android 原生應用程式和以 JVM 為基礎的電腦版工具。專為協同程式最佳化。	Kotlin 指南
Swift	🚀 早期預先發布版	原生 iOS 和 macOS 整合，並支援專用的 Metal。	Swift 指南
JavaScript (網站)	🚀 早期預先發布版	直接在網頁瀏覽器中部署模型，效能極高。	JavaScript 指南
Flutter	🚀 社群	跨平台 Flutter 應用程式使用社群 `flutter_gemma`。	Flutter 指南
C++	✅ 穩定版	高效能、跨平台的核心邏輯和嵌入式系統。	C++ 指南

如要自訂 LiteRT-LM 或為特定硬體設定建構，可以直接從原始碼編譯。如需如何設定環境及建構架構的逐步操作說明，請參閱 GitHub 上的 LiteRT-LM 建構與執行指南。

加速	Android	iOS	macOS	Windows	Linux	IoT
CPU	✅	✅	✅	✅	✅	✅
GPU	✅	✅	✅	✅	✅	-
NPU	✅	-	-	🚀	-	-

下表列出 LiteRT-LM 支援的模型。如要查看更詳細的效能數據和模型資訊卡，請前往 Hugging Face 上的 LiteRT 社群。

型號	類型	大小 (MB)	詳細資料	裝置	CPU 預先填入 (tk/s)	CPU 解碼 (tk/s)	GPU 預填 (每秒權杖數)	GPU 解碼 (每秒影格數)
Gemma4-E2B	即時通訊	2583	Model Card	Samsung S26 Ultra	557	47	3808	52
				iPhone 17 Pro	532	25	2878	57
				MacBook Pro M4	901	42	7835	160
Gemma4-E4B	即時通訊	3654	Model Card	Samsung S26 Ultra	195	18	1293	22
				iPhone 17 Pro	159	10	1189	25
				MacBook Pro M4	277	27	2560	101
Gemma-3n-E2B	即時通訊	2965	Model Card	MacBook Pro M3	233	28	-	-
				Samsung S24 Ultra	111	16	816	16
Gemma-3n-E4B	即時通訊	4235	Model Card	MacBook Pro M3	170	20	-	-
				Samsung S24 Ultra	74	9	548	9
Gemma3-1B	即時通訊	1005	Model Card	Samsung S24 Ultra	177	33	1191	24
FunctionGemma	Base	289	Model Card	Samsung S25 Ultra	2238	154	-	-
phi-4-mini	即時通訊	3906	Model Card	Samsung S24 Ultra	67	7	314	10
Qwen2.5-1.5B	即時通訊	(#1598)	Model Card	Samsung S25 Ultra	298	34	1668	31
Qwen3-0.6B	即時通訊	586	Model Card	Vivo X300 Pro	165	9	580	21
Qwen2.5-0.5B	即時通訊	521	Model Card	Samsung S24 Ultra	251	30	-	-

如果遇到錯誤或有功能要求，請在 LiteRT-LM GitHub Issues 回報。