Przedstawiamy Google AI Edge Portal: benchmark Edge AI na dużą skalę. Zarejestruj się, aby poprosić o dostęp podczas wersji prywatnej.

Wdrażanie modeli generatywnej AI za pomocą LiteRT

LiteRT zapewnia wydajne wdrażanie modeli generatywnej AI na platformach mobilnych, komputerowych i internetowych. Dzięki płynnemu wykorzystaniu akceleracji sprzętowej z procesorów CPU, GPU i NPU LiteRT zapewnia najnowocześniejszą wydajność w przypadku wnioskowania generatywnej AI na urządzeniu.

Złożone modele generatywnej AI możesz wdrażać za pomocą tego zintegrowanego stosu technologii:

Torch Generative API: moduł Pythona w bibliotece LiteRT Torch do tworzenia i konwertowania modeli GenAI w PyTorch. Zawiera zoptymalizowane bloki konstrukcyjne, które zapewniają wysoką wydajność na urządzeniach. Więcej informacji znajdziesz w artykule Konwertowanie modeli generatywnej AI w PyTorch.
LiteRT-LM: specjalistyczna warstwa orkiestracji zbudowana na podstawie LiteRT, która zarządza złożonościami związanymi z LLM, takimi jak klonowanie sesji, zarządzanie pamięcią podręczną klucz-wartość, buforowanie i ocenianie promptów oraz wnioskowanie stanowe. Więcej informacji znajdziesz w repozytorium LiteRT-LM na GitHubie.
LiteRT Converter and Runtime: podstawowy silnik, który zapewnia wydajną konwersję modelu, wykonywanie w środowisku wykonawczym i optymalizację, umożliwiając zaawansowane przyspieszanie sprzętowe na procesorach CPU, GPU i NPU.

LiteRT GenAI Model Zoo

LiteRT obsługuje rosnącą kolekcję popularnych modeli o otwartej wadze na platformie LiteRT Hugging Face Community. Te modele są wstępnie przekonwertowane i dostrojone do natychmiastowego wdrożenia, dzięki czemu możesz od razu korzystać z najwyższej wydajności procesorów CPU, GPU i NPU.

Gemma Family
- Gemma 3 270M
- Gemma 3 1B
- Gemma 3n E2B/E4B
- EmbeddingGemma 300M: patrz EmbeddingGemma semantic similarity LiteRT C++ App
- Funkcja Gemma 270M
Qwen Family
Llama
Phi
SmoLM
FastVLM

Wdrażanie modeli generatywnej AI za pomocą LiteRT

LiteRT GenAI Model Zoo

Polecane statystyki