Ce document présente différentes méthodes et outils pour déployer et exécuter des modèles Gemma sur des appareils mobiles, y compris à l'aide de l'application Google AI Edge Gallery et de l'API MediaPipe LLM Inference.
Pour savoir comment convertir un modèle Gemma affiné en version LiteRT, consultez le Guide de conversion.
Application Google AI Edge Gallery
Pour voir les API d'inférence LLM en action et tester votre modèle Task Bundle, vous pouvez utiliser l'application Google AI Edge Gallery. Cette application fournit une interface utilisateur pour interagir avec les LLM sur l'appareil, ce qui vous permet de :
- Importer des modèles : chargez vos modèles
.task
personnalisés dans l'application. - Configurer les paramètres : ajustez des paramètres tels que la température et le top-k.
- Générer du texte : saisissez des requêtes et consultez les réponses du modèle.
- Tester les performances : évaluez la vitesse et la précision du modèle.
Pour obtenir un guide détaillé sur l'utilisation de l'application Google AI Edge Gallery, y compris des instructions pour importer vos propres modèles, consultez la documentation de l'application.
MediaPipe LLM
Vous pouvez exécuter des modèles Gemma sur des appareils mobiles avec l'API MediaPipe LLM Inference. L'API LLM Inference sert de wrapper pour les grands modèles de langage. Elle vous permet d'exécuter des modèles Gemma sur l'appareil pour des tâches courantes de génération de texte à partir de texte, comme la récupération d'informations, la rédaction d'e-mails et la synthèse de documents.
L'API LLM Inference est disponible sur les plates-formes mobiles suivantes :
Pour en savoir plus, consultez la documentation sur l'inférence LLM MediaPipe.