Lorsque vous souhaitez exécuter un modèle Gemma, vous devez prendre deux décisions clés : 1) quelle variante de Gemma souhaitez-vous exécuter ? 2) Quel framework d'exécution d'IA allez-vous utiliser pour l'exécuter ? Un problème clé pour prendre ces deux décisions concerne le matériel dont vous et vos utilisateurs disposent pour exécuter le modèle.
Cette présentation vous aidera à prendre ces décisions et à commencer à travailler avec les modèles Gemma. Voici les étapes générales pour exécuter un modèle Gemma :
- Choisir un framework pour l'exécution
- Sélectionner une variante Gemma
- Exécuter des requêtes de génération et d'inférence
Choisir un framework
Les modèles Gemma sont compatibles avec différents frameworks d'exécution d'IA générative. L'un des principaux facteurs de décision pour exécuter un modèle Gemma est de savoir quelles ressources de calcul vous avez (ou aurez) à votre disposition pour exécuter le modèle. La plupart des frameworks d'IA compatibles nécessitent du matériel spécialisé, comme des GPU ou des TPU, pour exécuter efficacement un modèle Gemma. Des outils tels que Google Colab peuvent fournir ces ressources de calcul spécialisées de manière limitée. Certains frameworks d'exécution d'IA, tels que Ollama et Gemma.cpp, vous permettent d'exécuter Gemma sur des processeurs plus courants à l'aide d'architectures compatibles x86 ou ARM.
Voici des guides pour exécuter des modèles Gemma avec différents frameworks d'exécution d'IA :
- Hugging Face Transformers
- Ollama
- Bibliothèque Gemma pour JAX
- Keras
- PyTorch
- API MediaPipe LLM Inference
- Gemma.cpp
- vLLM
- Google Cloud Vertex AI
- Google Cloud Kubernetes Engine (GKE)
- Google Cloud Run
Assurez-vous que le format de modèle Gemma que vous souhaitez déployer (par exemple, le format natif Keras, Safetensors ou GGUF) est compatible avec le framework choisi.
Sélectionner une variante de Gemma
Les modèles Gemma sont disponibles dans plusieurs variantes et tailles, y compris les modèles Gemma de base ou Core, ainsi que des variantes de modèles plus spécialisées telles que PaliGemma et DataGemma, et de nombreuses variantes créées par la communauté des développeurs d'IA sur des sites tels que Kaggle et Hugging Face. Si vous ne savez pas quelle variante choisir, sélectionnez le dernier modèle core Gemma ajusté aux instructions (IT) avec le plus petit nombre de paramètres. Ce type de modèle Gemma présente de faibles exigences de calcul et peut répondre à une grande variété de requêtes sans nécessiter de développement supplémentaire.
Tenez compte des facteurs suivants lorsque vous choisissez une variante Gemma :
- Gemma Core et d'autres familles de variantes telles que PaliGemma et CodeGemma : Recommandez Gemma Core. Les variantes de Gemma au-delà de la version principale ont la même architecture que le modèle principal et sont entraînées pour être plus performantes dans des tâches spécifiques. À moins que votre application ou vos objectifs ne correspondent à la spécialisation d'une variante Gemma spécifique, il est préférable de commencer par un modèle Gemma de base.
- Instruction-tuned (IT), pre-trained (PT), fine-tuned (FT), mixed
(mix) : recommandation : IT
- Les variantes Gemma adaptées aux instructions (IT) sont des modèles qui ont été entraînés pour répondre à diverses instructions ou requêtes en langage humain. Ces variantes de modèle sont le meilleur point de départ, car elles peuvent répondre aux requêtes sans nécessiter d'entraînement supplémentaire.
- Les variantes Gemma pré-entraînées (PT) sont des modèles qui ont été entraînés pour faire des inférences sur le langage ou d'autres données, mais pas pour suivre des instructions humaines. Ces modèles nécessitent un entraînement ou un réglage supplémentaires pour pouvoir effectuer des tâches efficacement. Ils sont destinés aux chercheurs ou aux développeurs qui souhaitent étudier ou développer les capacités du modèle et de son architecture.
- Les variantes Gemma affinées (FT) peuvent être considérées comme des variantes IT, mais elles sont généralement entraînées pour effectuer une tâche spécifique ou obtenir de bons résultats sur un benchmark d'IA générative spécifique. La famille de variantes PaliGemma inclut plusieurs variantes FT.
- Les variantes Gemma mixte sont des versions des modèles PaliGemma qui ont été adaptées aux instructions avec diverses instructions et qui conviennent à un usage général.
- Paramètres : recommandez le plus petit nombre disponible. En général, plus un modèle comporte de paramètres, plus il est performant. Toutefois, l'exécution de modèles plus volumineux nécessite des ressources de calcul plus importantes et plus complexes, et ralentit généralement le développement d'une application d'IA. Sauf si vous avez déjà déterminé qu'un modèle Gemma plus petit ne peut pas répondre à vos besoins, choisissez-en un avec un petit nombre de paramètres.
- Niveaux de quantification : recommandez la demi-précision (16 bits), sauf pour le réglage. La quantification est un sujet complexe qui se résume à la taille et à la précision des données, et par conséquent à la quantité de mémoire qu'un modèle d'IA générative utilise pour les calculs et la génération de réponses. Une fois qu'un modèle a été entraîné avec des données de haute précision (généralement des données à virgule flottante sur 32 bits), des modèles comme Gemma peuvent être modifiés pour utiliser des données de précision inférieure, comme des tailles de 16, 8 ou 4 bits. Ces modèles Gemma quantifiés peuvent toujours être performants, en fonction de la complexité des tâches, tout en utilisant beaucoup moins de ressources de calcul et de mémoire. Toutefois, les outils permettant d'ajuster les modèles quantifiés sont limités et peuvent ne pas être disponibles dans le framework de développement d'IA que vous avez choisi. En règle générale, vous devez affiner un modèle comme Gemma avec une précision maximale, puis quantifier le modèle obtenu.
Pour obtenir la liste des principaux modèles Gemma publiés par Google, consultez la page Premiers pas avec les modèles Gemma, liste des modèles Gemma.
Exécuter des requêtes de génération et d'inférence
Après avoir sélectionné un framework d'exécution d'IA et une variante Gemma, vous pouvez commencer à exécuter le modèle et lui demander de générer du contenu ou d'accomplir des tâches. Pour savoir comment exécuter Gemma avec un framework spécifique, consultez les guides associés dans la section Choisir un framework.
Mise en forme des requêtes
Toutes les variantes Gemma adaptées aux instructions sont soumises à des exigences spécifiques concernant la mise en forme des requêtes. Certaines de ces exigences de mise en forme sont gérées automatiquement par le framework que vous utilisez pour exécuter les modèles Gemma. Toutefois, lorsque vous envoyez des données d'invite directement à un tokenizer, vous devez ajouter des tags spécifiques. Les exigences de taggage peuvent varier en fonction de la variante Gemma que vous utilisez. Pour en savoir plus sur la mise en forme des requêtes et les instructions système pour les variantes Gemma, consultez les guides suivants :