Framework di inferenza open source pronto per la produzione progettato per fornire implementazioni LLM multipiattaforma ad alte prestazioni su dispositivi edge.

In evidenza

Migliora l'inferenza on-device di Gemma 4 con la previsione multi-token (MTP). Sperimenta velocità di decodifica più che doppie sulle GPU mobile senza alcuna perdita di qualità.

Perché LiteRT-LM?

Implementa i LLM su Android, iOS, web e computer.
Massimizza le prestazioni con l'accelerazione di GPU e NPU.
Supporto per LLM popolari, nonché per la multimodalità (visione, audio) e l'utilizzo di strumenti.

Inizia a creare

API Python con accelerazione hardware su Linux, macOS, Windows e Raspberry Pi.
App Android native e strumenti desktop basati su JVM.
Integrazione nativa con iOS e macOS con supporto Metal specializzato (API Swift in arrivo).
API C++ multipiattaforma .

Unisciti alla Community

Contribuisci al progetto open source, segnala problemi e visualizza esempi.
Scarica modelli pre-convertiti (Gemma, Qwen e altri) e partecipa alla discussione.

Blog e annunci

Esegui il deployment di Gemma 4 in-app e su una gamma più ampia di dispositivi con prestazioni e copertura eccezionali utilizzando LiteRT-LM.
Esegui il deployment di modelli linguistici su dispositivi indossabili e piattaforme basate su browser utilizzando LiteRT-LM su larga scala.
Scopri come ottimizzare FunctionGemma e abilitare le funzionalità di chiamata di funzione basate sulle API LiteRT-LM Tool Use.
Approfondimenti più recenti su RAG, multimodalità e chiamata di funzione per i modelli linguistici edge.