Esegui il deployment di modelli di AI generativa con LiteRT

LiteRT offre un deployment ad alte prestazioni per i modelli di AI generativa su piattaforme mobile, desktop e web. Sfruttando senza problemi l'accelerazione hardware di CPU, GPU e NPU, LiteRT offre prestazioni all'avanguardia per l'inferenza dell'AI generativa sul dispositivo.

Puoi eseguire il deployment di modelli di AI generativa complessi utilizzando lo stack tecnologico integrato seguente:

  • API Torch Generative: un modulo Python all'interno della libreria AI Edge Torch per la creazione e la conversione di modelli PyTorch GenAI. Fornisce blocchi di costruzione ottimizzati che garantiscono un'esecuzione ad alte prestazioni sui dispositivi. Per ulteriori dettagli, consulta Convertire i modelli di AI generativa PyTorch.

  • LiteRT-LM: un livello di orchestrazione specializzato basato su LiteRT per gestire le complessità specifiche degli LLM, come la clonazione delle sessioni, la gestione della cache KV, la memorizzazione nella cache/il punteggio dei prompt e l'inferenza stateful. Per maggiori dettagli, consulta il repository GitHub di LiteRT-LM.

  • Convertitore e runtime LiteRT: il motore di base che fornisce conversione, esecuzione e ottimizzazione efficienti dei modelli, consentendo l'accelerazione hardware avanzata su CPU, GPU e NPU.

Archivio di modelli di AI generativa LiteRT

LiteRT supporta una raccolta sempre più ampia di modelli open-weight popolari nella community Hugging Face di LiteRT. Questi modelli sono preconvertiti e ottimizzati per l'implementazione immediata, consentendoti di sfruttare le massime prestazioni su CPU, GPU e NPU pronte all'uso.

  • Gemma Family
    • Gemma 3 270M
    • Gemma 3 1B
    • Gemma 3n E2B/E4B
    • EmbeddingGemma 300M
    • Funzione Gemma 270M
  • Famiglia Qwen
  • Llama
  • Phi
  • SmoLM
  • FastVLM

Informazioni in primo piano