Wdrażanie modeli generatywnej AI za pomocą LiteRT

LiteRT zapewnia wydajne wdrażanie modeli generatywnej AI na platformach mobilnych, komputerach i w internecie. Dzięki płynnemu wykorzystaniu akceleracji sprzętowej z procesorów CPU, GPU i NPU LiteRT zapewnia najnowocześniejszą wydajność w przypadku wnioskowania generatywnej AI na urządzeniu.

Możesz wdrażać złożone modele generatywnej AI, korzystając z tego zintegrowanego stosu technologii:

  • Torch Generative API: moduł Pythona w bibliotece AI Edge Torch do tworzenia i konwertowania modeli PyTorch GenAI. Zawiera zoptymalizowane bloki konstrukcyjne, które zapewniają wysoką wydajność na urządzeniach. Więcej informacji znajdziesz w artykule Konwertowanie modeli generatywnej AI w PyTorch.

  • LiteRT-LM: specjalistyczna warstwa orkiestracji zbudowana na podstawie LiteRT, która zarządza złożonościami związanymi z LLM, takimi jak klonowanie sesji, zarządzanie pamięcią podręczną klucz-wartość, buforowanie i ocenianie promptów oraz wnioskowanie stanowe. Więcej informacji znajdziesz w repozytorium LiteRT-LM na GitHubie.

  • LiteRT Converter and Runtime: podstawowy silnik, który zapewnia wydajną konwersję modelu, wykonywanie w środowisku wykonawczym i optymalizację, umożliwiając zaawansowane przyspieszanie sprzętowe na procesorach CPU, GPU i NPU.

LiteRT GenAI Model Zoo

LiteRT obsługuje rosnącą kolekcję popularnych modeli o otwartej wadze na platformie LiteRT Hugging Face Community. Te modele są wstępnie przekonwertowane i dostosowane do natychmiastowego wdrożenia, dzięki czemu możesz od razu korzystać z najwyższej wydajności procesorów CPU, GPU i NPU.

  • Gemma Family
    • Gemma 3 270M
    • Gemma 3 1B
    • Gemma 3n E2B/E4B
    • EmbeddingGemma 300M
    • Funkcja Gemma 270M
  • Qwen Family
  • Llama
  • Phi
  • SmoLM
  • FastVLM

Polecane statystyki