Przedstawiamy Google AI Edge Portal: benchmark Edge AI na dużą skalę. Zarejestruj się, aby poprosić o dostęp podczas wersji prywatnej.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Wnioskowanie na urządzeniu za pomocą LiteRT

Interfejs LiteRT CompiledModel API to nowoczesny standard wnioskowania na urządzeniu za pomocą ML, który oferuje uproszczone przyspieszenie sprzętowe znacznie przewyższające wydajnością interfejs Interpreter API. Ten interfejs upraszcza wdrażanie modeli .tflite na wielu platformach brzegowych, zapewniając ujednolicone środowisko programistyczne i zaawansowane funkcje zaprojektowane z myślą o maksymalnej wydajności sprzętu.

Dlaczego warto wybrać interfejs API `CompiledModel`?

Interfejs Interpreter API pozostaje dostępny w celu zapewnienia zgodności wstecznej, ale w przypadku interfejsu CompiledModel API priorytetem są nowe funkcje związane z wydajnością i akceleratorami. Jest to zalecana opcja z tych powodów:

Najlepsza w swojej klasie akceleracja GPU: wykorzystuje ML Drift, najnowocześniejszą bibliotekę akceleracji GPU, aby zapewnić niezawodne wnioskowanie na GPU na urządzeniach mobilnych, w internecie, na komputerach i urządzeniach IoT. Zobacz akcelerację GPU za pomocą LiteRT.
Ujednolicony dostęp do NPU: zapewnia spójne środowisko programistyczne, które umożliwia dostęp do NPU różnych dostawców, takich jak Google Tensor, Qualcomm i MediaTek, oraz eliminuje złożoność kompilatorów i środowisk wykonawczych specyficznych dla danego dostawcy. Zobacz przyspieszenie NPU za pomocą LiteRT.
Automatyczny wybór sprzętu: automatycznie wybiera optymalny backend spośród procesora, GPU i NPU na podstawie dostępnego sprzętu i wewnętrznej logiki priorytetów, eliminując konieczność ręcznej konfiguracji delegata.
Wykonanie asynchroniczne: wykorzystuje mechanizmy na poziomie systemu operacyjnego (takie jak bariery synchronizacji), aby umożliwić akceleratorom sprzętowym bezpośrednie wyzwalanie się po zakończeniu poprzednich zadań bez udziału procesora. Może to skrócić czas oczekiwania nawet 2-krotnie i zapewnić płynniejsze, bardziej interaktywne działanie AI.
Wydajne zarządzanie buforem wejścia/wyjścia: wykorzystuje interfejs TensorBuffer API do zarządzania przepływem danych o wysokiej wydajności między akceleratorami. Obejmuje to współdziałanie buforów bez kopiowania w AHardwareBuffer, OpenCL i OpenGL, co eliminuje kosztowne kopiowanie danych między etapami wstępnego przetwarzania, wnioskowania i postprocessingu.

Pierwsze kroki z interfejsem `CompiledModel` API

W przypadku klasycznych modeli ML zobacz te aplikacje demonstracyjne:
- Aplikacja do segmentacji obrazów w Kotlinie: wnioskowanie na CPU/GPU/NPU.
- Aplikacja C++ do segmentacji obrazu: wnioskowanie na CPU/GPU/NPU z wykonywaniem asynchronicznym.
W przypadku modeli generatywnej AI zapoznaj się z tymi aplikacjami demonstracyjnymi:
- EmbeddingGemma semantic similarity C++ App: wnioskowanie na CPU, GPU i NPU.

Obsługiwane platformy

Interfejs LiteRT CompiledModel API obsługuje wnioskowanie o wysokiej wydajności na urządzeniach z Androidem, iOS, w internecie, na urządzeniach IoT i komputerach. Zapoznaj się z przewodnikiem dotyczącym konkretnej platformy.

Wnioskowanie na urządzeniu za pomocą LiteRT

Dlaczego warto wybrać interfejs API CompiledModel?

Pierwsze kroki z interfejsem CompiledModel API

Obsługiwane platformy

Dlaczego warto wybrać interfejs API `CompiledModel`?

Pierwsze kroki z interfejsem `CompiledModel` API