使用 LiteRT 部署生成式 AI 模型

LiteRT 可在行動裝置、電腦和網路平台,以高效能部署生成式 AI 模型。LiteRT 可順暢運用 CPU、GPU 和 NPU 的硬體加速功能,為裝置端生成式 AI 推論提供最先進的效能。

您可以使用下列整合式技術堆疊,部署複雜的生成式 AI 模型:

  • Torch Generative API:AI Edge Torch 程式庫中的 Python 模組,用於編寫及轉換 PyTorch GenAI 模型。並提供最佳化建構區塊,確保裝置上的執行效能。詳情請參閱「轉換 PyTorch GenAI 模型」。

  • LiteRT-LM:以 LiteRT 為基礎建構的專用自動化調度管理層,可管理 LLM 特有的複雜性,例如工作階段複製、kv 快取管理、提示快取/評分、具狀態的推論。詳情請參閱 LiteRT-LM GitHub 存放區

  • LiteRT 轉換器和執行階段:基礎引擎,可提供高效的模型轉換、執行階段執行和最佳化功能,在 CPU、GPU 和 NPU 中實現進階硬體加速。

LiteRT GenAI 模型庫

LiteRT 支援 LiteRT Hugging Face 社群中越來越多熱門的開放權重模型。這些模型經過預先轉換及調整,可立即部署,讓您直接在 CPU、GPU 和 NPU 上發揮最高效能。

  • Gemma 系列
    • Gemma 3 270M
    • Gemma 3 1B
    • Gemma 3n E2B/E4B
    • EmbeddingGemma 300M
    • Gemma 270M 功能
  • Qwen 系列
  • Llama
  • Phi
  • SmoLM
  • FastVLM

精選深入分析