Wdrażanie modeli generatywnej AI za pomocą LiteRT

LiteRT zapewnia wydajne wdrażanie modeli generatywnej AI na platformach mobilnych, komputerowych i internetowych. Dzięki płynnemu wykorzystaniu akceleracji sprzętowej z procesorów CPU, GPU i NPU LiteRT zapewnia najnowocześniejszą wydajność w przypadku wnioskowania generatywnej AI na urządzeniu.

Złożone modele generatywnej AI możesz wdrażać za pomocą tego zintegrowanego stosu technologii:

  • Torch Generative API: moduł Pythona w bibliotece LiteRT Torch do tworzenia i konwertowania modeli GenAI w PyTorch. Zawiera zoptymalizowane bloki konstrukcyjne, które zapewniają wysoką wydajność na urządzeniach. Więcej informacji znajdziesz w artykule Konwertowanie modeli generatywnej AI w PyTorch.

  • LiteRT-LM: specjalistyczna warstwa orkiestracji zbudowana na podstawie LiteRT, która zarządza złożonościami związanymi z LLM, takimi jak klonowanie sesji, zarządzanie pamięcią podręczną klucz-wartość, buforowanie i ocenianie promptów oraz wnioskowanie stanowe. Więcej informacji znajdziesz w repozytorium LiteRT-LM na GitHubie.

  • LiteRT Converter and Runtime: podstawowy silnik, który zapewnia wydajną konwersję modelu, wykonywanie w środowisku wykonawczym i optymalizację, umożliwiając zaawansowane przyspieszanie sprzętowe na procesorach CPU, GPU i NPU.

LiteRT GenAI Model Zoo

LiteRT obsługuje rosnącą kolekcję popularnych modeli o otwartej wadze na platformie LiteRT Hugging Face Community. Te modele są wstępnie przekonwertowane i dostrojone do natychmiastowego wdrożenia, dzięki czemu możesz od razu korzystać z najwyższej wydajności procesorów CPU, GPU i NPU.

Polecane statystyki