GenAI-Modelle mit LiteRT bereitstellen

LiteRT bietet eine leistungsstarke Bereitstellung für generative KI-Modelle auf Mobilgeräten, Computern und Webplattformen. LiteRT nutzt nahtlos die Hardwarebeschleunigung von CPUs, GPUs und NPUs und bietet so eine optimale Leistung für die On-Device-Inferenz von generativer KI.

Sie können komplexe GenAI-Modelle mit dem folgenden integrierten Technologie-Stack bereitstellen:

  • Torch Generative API: Ein Python-Modul in der AI Edge Torch-Bibliothek zum Erstellen und Konvertieren von PyTorch GenAI-Modellen. Sie bietet optimierte Bausteine, die für eine leistungsstarke Ausführung auf Geräten sorgen. Weitere Informationen finden Sie unter PyTorch GenAI-Modelle konvertieren.

  • LiteRT-LM: Eine spezielle Orchestrierungsebene, die auf LiteRT aufbaut, um LLM-spezifische Komplexitäten wie das Klonen von Sitzungen, die Verwaltung von KV-Caches, das Zwischenspeichern/Bewerten von Prompts und die zustandsbehaftete Inferenz zu verwalten. Weitere Informationen finden Sie im GitHub-Repository für LiteRT-LM.

  • LiteRT Converter und Runtime: Die zugrunde liegende Engine, die eine effiziente Modellkonvertierung, Laufzeitausführung und ‑optimierung ermöglicht und eine erweiterte Hardwarebeschleunigung für CPU, GPU und NPU bietet.

LiteRT GenAI Model Zoo

LiteRT unterstützt eine wachsende Sammlung beliebter Open-Weight-Modelle in der LiteRT Hugging Face-Community. Diese Modelle sind vorkonvertiert und für die sofortige Bereitstellung optimiert. Sie können also sofort die Spitzenleistung von CPUs, GPUs und NPUs nutzen.

  • Gemma-Familie
    • Gemma3 270M-Modell
    • Gemma 3 1B
    • Gemma 3n E2B/E4B
    • EmbeddingGemma 300M
    • Funktion von Gemma 270M
  • Qwen Family
  • Llama
  • Phi
  • SmoLM
  • FastVLM

Empfohlene Meldungen