一款可用于生产用途的开源推理框架,旨在在边缘设备上实现高性能、跨平台的 LLM 部署。

焦点

利用多令牌预测 (MTP) 功能,大幅提升 Gemma 4 的设备端推理性能。在移动 GPU 上实现超过 2 倍的解码速度,且不会降低画质。

为什么选择 LiteRT-LM?

在 Android、iOS、Web 和桌面设备上部署 LLM。
利用 GPU 和 NPU 加速功能最大限度地提升性能。
支持热门 LLM,以及多模态(视觉、音频)和工具使用。

开始构建

在 Linux、MacOS、Windows 和 Raspberry Pi 上使用硬件加速的 Python API。
原生 Android 应用和基于 JVM 的桌面工具。
原生 iOS(macOS 版即将推出)Swift API。
适用于基于浏览器且具有 WebGPU 加速功能的 Web 应用的 JavaScript 和 TypeScript API。
使用社区维护的 flutter_gemma 软件包构建跨平台 Flutter 应用。
跨平台 C++ API。
从转换后的 LiteRT 模型构建 .litertlm 文件。

加入社群

为开源项目做出贡献、报告问题并查看示例。
下载预转换模型(Gemma、Qwen 等),并加入讨论。

博客和公告

使用 LiteRT-LM 在应用内和更广泛的设备上部署 Gemma 4,实现出色的性能和覆盖面。
使用 LiteRT-LM 在穿戴式设备和基于浏览器的平台上大规模部署语言模型。
了解如何对 FunctionGemma 进行微调,并启用由 LiteRT-LM 工具使用 API 提供支持的函数调用功能。
有关边缘端语言模型的 RAG、多模态和函数调用的最新见解。