Eseguire il deployment di Gemma sui dispositivi mobili

Questo documento descrive vari metodi e strumenti per il deployment e l'esecuzione di modelli Gemma su dispositivi mobili, incluso l'utilizzo dell'app Google AI Edge Gallery e dell'API MediaPipe LLM Inference.

Per informazioni sulla conversione di un modello Gemma ottimizzato in una versione LiteRT, consulta la Guida alla conversione.

Per vedere le API LLM Inference in azione e testare il modello Task Bundle, puoi utilizzare l'app Google AI Edge Gallery. Questa app fornisce un'interfaccia utente per interagire con gli LLM sul dispositivo, consentendoti di:

  • Importa modelli:carica i tuoi modelli .task personalizzati nell'app.
  • Configura parametri:regola impostazioni come temperatura e top-k.
  • Genera testo:inserisci prompt e visualizza le risposte del modello.
  • Prestazioni del test:valuta la velocità e l'accuratezza del modello.

Per una guida dettagliata su come utilizzare l'app Google AI Edge Gallery, incluse le istruzioni per importare i tuoi modelli, consulta la documentazione dell'app.

LLM MediaPipe

Puoi eseguire i modelli Gemma sui dispositivi mobili con l'API MediaPipe LLM Inference. L'API LLM Inference funge da wrapper per i modelli linguistici di grandi dimensioni, consentendoti di eseguire i modelli Gemma sul dispositivo per attività comuni di generazione di testo, come il recupero di informazioni, la stesura di email e il riassunto di documenti.

L'API LLM Inference è disponibile sulle seguenti piattaforme mobile:

Per saperne di più, consulta la documentazione sull'inferenza LLM di MediaPipe.