LiteRT 可在移动平台、桌面平台和 Web 平台上为生成式 AI 模型提供高性能部署。通过无缝利用 CPU、GPU 和 NPU 的硬件加速功能,LiteRT 为设备端生成式 AI 推理提供出色的性能。
您可以使用以下集成式技术堆栈部署复杂的生成式 AI 模型:
Torch Generative API:AI Edge Torch 库中的一个 Python 模块,用于创作和转换 PyTorch GenAI 模型。它提供优化的构建块,可确保在设备上实现高性能执行。如需了解详情,请参阅转换 PyTorch GenAI 模型。
LiteRT-LM:基于 LiteRT 构建的专用编排层,用于管理 LLM 特有的复杂性,例如会话克隆、kv-cache 管理、提示缓存/评分、有状态推理。如需了解详情,请参阅 LiteRT-LM GitHub 代码库。
LiteRT 转换器和运行时:提供高效的模型转换、运行时执行和优化,可在 CPU、GPU 和 NPU 上实现高级硬件加速的基础引擎。
LiteRT GenAI Model Zoo
LiteRT 支持 LiteRT Hugging Face 社区中不断增加的热门开放权重模型。 这些模型经过预转换和调优,可立即部署,让您能够开箱即用地在 CPU、GPU 和 NPU 上充分发挥性能。
- Gemma 系列
- Gemma 3 270M
- Gemma 3 1B
- Gemma 3n E2B/E4B
- EmbeddingGemma 300M
- 功能 Gemma 270M
- Qwen Family
- Llama
- Phi
- SmoLM
- FastVLM