Inferenza on-device con LiteRT

L'API LiteRT CompiledModel rappresenta lo standard moderno per l'inferenza ML on-device, offrendo un'accelerazione hardware semplificata che supera di gran lunga le prestazioni dell'API Interpreter. Questa interfaccia semplifica l'implementazione dei modelli .tflite su un'ampia gamma di piattaforme edge fornendo un'esperienza di sviluppo unificata e funzionalità avanzate progettate per la massima efficienza hardware.

Perché scegliere l'API CompiledModel?

Sebbene l'API Interpreter rimanga disponibile per la compatibilità con le versioni precedenti, l'API CompiledModel è quella in cui vengono date priorità alle nuove funzionalità di rendimento e acceleratore. È la scelta consigliata per i seguenti motivi:

  • Accelerazione GPU best-in-class: sfrutta ML Drift, la libreria di accelerazione GPU all'avanguardia, per fornire un'inferenza GPU affidabile su dispositivi mobili, web, desktop e IoT. Consulta Accelerazione GPU con LiteRT.

  • Accesso unificato alla NPU: offre un'esperienza di sviluppo singola e coerente per accedere alle NPU di vari fornitori come Google Tensor, Qualcomm, MediaTek, astrazione dei compilatori e delle complessità di runtime specifici del fornitore. Vedi Accelerazione della NPU con LiteRT.

  • Selezione automatica dell'hardware: seleziona automaticamente il backend ottimale tra CPU, GPU e NPU, in base all'hardware disponibile e alla logica di priorità interna, eliminando la necessità di configurare manualmente i delegati.

  • Esecuzione asincrona: utilizza meccanismi a livello di sistema operativo (come le barriere di sincronizzazione) per consentire agli acceleratori hardware di attivarsi direttamente al completamento delle attività precedenti senza coinvolgere la CPU. Ciò può ridurre la latenza fino a due volte e garantisce un'esperienza AI più fluida e interattiva.

  • Gestione efficiente del buffer I/O: utilizza l'API TensorBuffer per gestire il flusso di dati ad alte prestazioni tra gli acceleratori. Ciò include l'interoperabilità del buffer zero-copy tra AHardwareBuffer, OpenCL e OpenGL, eliminando le costose copie di dati tra le fasi di pre-elaborazione, inferenza e post-elaborazione.

Piattaforme supportate

L'API LiteRT CompiledModel supporta inferenze ad alte prestazioni su dispositivi Android, iOS, web, IoT e computer. Consulta la guida specifica per la piattaforma.