LiteRT offre un deployment ad alte prestazioni per i modelli di AI generativa su piattaforme mobile, desktop e web. Sfruttando senza problemi l'accelerazione hardware di CPU, GPU e NPU, LiteRT offre prestazioni all'avanguardia per l'inferenza dell'AI generativa sul dispositivo.
Puoi eseguire il deployment di modelli di AI generativa complessi utilizzando lo stack tecnologico integrato seguente:
API Torch Generative: un modulo Python all'interno della libreria AI Edge Torch per la creazione e la conversione di modelli PyTorch GenAI. Fornisce blocchi di costruzione ottimizzati che garantiscono un'esecuzione ad alte prestazioni sui dispositivi. Per ulteriori dettagli, consulta Convertire i modelli di AI generativa PyTorch.
LiteRT-LM: un livello di orchestrazione specializzato basato su LiteRT per gestire le complessità specifiche degli LLM, come la clonazione delle sessioni, la gestione della cache KV, la memorizzazione nella cache/il punteggio dei prompt e l'inferenza stateful. Per maggiori dettagli, consulta il repository GitHub di LiteRT-LM.
Convertitore e runtime LiteRT: il motore di base che fornisce conversione, esecuzione e ottimizzazione efficienti dei modelli, consentendo l'accelerazione hardware avanzata su CPU, GPU e NPU.
Archivio di modelli di AI generativa LiteRT
LiteRT supporta una raccolta sempre più ampia di modelli open-weight popolari nella community Hugging Face di LiteRT. Questi modelli sono preconvertiti e ottimizzati per l'implementazione immediata, consentendoti di sfruttare le massime prestazioni su CPU, GPU e NPU pronte all'uso.
- Gemma Family
- Gemma 3 270M
- Gemma 3 1B
- Gemma 3n E2B/E4B
- EmbeddingGemma 300M
- Funzione Gemma 270M
- Famiglia Qwen
- Llama
- Phi
- SmoLM
- FastVLM
Informazioni in primo piano
- NPU e LiteRT di MediaTek: la base per la nuova generazione di AI on-device
- Sfruttare al meglio le prestazioni della NPU Qualcomm con LiteRT
- AI generativa sul dispositivo in Chrome, Chromebook Plus e Pixel Watch con LiteRT-LM
- Modelli linguistici di piccole dimensioni sul dispositivo con multimodalità, RAG e chiamate di funzione
- Gemma 3 su dispositivi mobili e web con Google AI Edge