Exécuter des modèles d'intelligence artificielle (IA) générative comme Gemma peut s'avérer difficile sans le matériel approprié. Les frameworks Open Source tels que llama.cpp et Ollama facilitent cette tâche en configurant un environnement d'exécution préconfiguré qui vous permet d'exécuter des versions de Gemma avec moins de ressources de calcul. En fait, avec llama.cpp et Ollama, vous pouvez exécuter des versions de Gemma sur un ordinateur portable ou un autre petit appareil informatique sans processeur graphique (GPU).
Pour exécuter des modèles Gemma avec moins de ressources de calcul, les frameworks llama.cpp et Ollama utilisent des versions quantifiées des modèles dans le format de fichier de modèle GGUF (GPT-Generated Unified Format). Ces modèles quantifiés sont modifiés pour traiter les requêtes à l'aide de données plus petites et moins précises. L'utilisation de données moins précises dans les modèles quantifiés pour traiter les requêtes réduit généralement la qualité de la sortie des modèles, mais présente l'avantage de réduire également les coûts des ressources de calcul.
Ce guide explique comment configurer et utiliser Ollama pour exécuter Gemma afin de générer des réponses textuelles.
Configuration
Cette section explique comment configurer Ollama et préparer une instance de modèle Gemma pour répondre aux requêtes, y compris demander l'accès au modèle, installer un logiciel et configurer un modèle Gemma dans Ollama.
Accéder aux modèles Gemma
Avant de travailler avec des modèles Gemma, assurez-vous d'avoir demandé l'accès via Kaggle et d'avoir lu les Conditions d'utilisation de Gemma.
Installer Ollama
Avant de pouvoir utiliser Gemma avec Ollama, vous devez télécharger et installer le logiciel Ollama sur votre appareil informatique.
Pour télécharger et installer Ollama:
- Accédez à la page de téléchargement : https://ollama.com/download.
- Sélectionnez votre système d'exploitation, cliquez sur le bouton Télécharger ou suivez les instructions sur la page de téléchargement.
- Installez l'application en exécutant le programme d'installation.
- Windows:exécutez le fichier d'installation *.exe et suivez les instructions.
- Mac:décompressez le package ZIP et déplacez le dossier de l'application Ollama dans le répertoire Applications.
- Linux:suivez les instructions de l'installateur de script bash.
Vérifiez qu'Ollama est installé en ouvrant une fenêtre de terminal et en saisissant la commande suivante:
ollama --version
Une réponse semblable à ollama version is #.#.##
doit s'afficher. Si ce n'est pas le cas, assurez-vous que l'exécutable Ollama est ajouté au chemin d'accès de votre système d'exploitation.
Configurer Gemma dans Ollama
Le package d'installation d'Ollama n'inclut aucun modèle par défaut. Vous téléchargez un modèle à l'aide de la commande pull
.
Pour configurer Gemma dans Ollama:
Téléchargez et configurez la variante Gemma 2 par défaut en ouvrant une fenêtre de terminal et en saisissant la commande suivante:
ollama pull gemma2
Une fois le téléchargement terminé, vous pouvez vérifier que le modèle est disponible à l'aide de la commande suivante:
ollama list
Par défaut, Ollama télécharge la variante du modèle Gemma avec 9 milliards de paramètres et une quantification sur 4 bits (Q4_0). Vous pouvez également télécharger et utiliser d'autres tailles du modèle Gemma en spécifiant une taille de paramètre.
Les modèles sont spécifiés sous la forme <model_name>:<tag>
. Pour le modèle Gemma 2 à 2 milliards de paramètres, saisissez gemma2:2b
. Pour le modèle à 27 milliards de paramètres, saisissez gemma2:27b
. Vous trouverez les balises disponibles sur le site Web d'Ollama, y compris Gemma 2 et Gemma.
Générer des réponses
Une fois que vous avez terminé d'installer un modèle Gemma dans Ollama, vous pouvez générer immédiatement des réponses à l'aide de la commande run
de l'interface de ligne de commande d'Ollama.
Ollama configure également un service Web pour accéder au modèle, que vous pouvez tester à l'aide de la commande curl
.
Pour générer une réponse à partir de la ligne de commande:
Dans une fenêtre de terminal, saisissez la commande suivante:
ollama run gemma2 "roses are red"
Pour générer une réponse à l'aide du service Web local Ollama:
Dans une fenêtre de terminal, saisissez la commande suivante:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma2",\ "prompt":"roses are red"\ }'
Modèles Gemma réglés
Ollama fournit un ensemble de variantes de modèles Gemma officielles à utiliser immédiatement, qui sont quantiques et enregistrées au format GGUF. Vous pouvez utiliser vos propres modèles Gemma optimisés avec Ollama en les convertissant au format GGUF. Ollama inclut certaines fonctions permettant de convertir les modèles affinés d'un format de fichier de modèle en GGUF. Pour savoir comment convertir votre modèle affiné en GGUF, consultez le fichier README d'Ollama.
Étapes suivantes
Une fois que vous avez exécuté Gemma avec Ollama, vous pouvez commencer à tester et à créer des solutions avec les fonctionnalités d'IA générative de Gemma. L'interface de ligne de commande d'Ollama peut être utile pour créer des solutions de script. L'interface de service Web local Ollama peut être utile pour créer des applications expérimentales et à faible volume d'utilisation.
- Essayez d'effectuer une intégration à l'aide du service Web Ollama pour créer un assistant de code personnel exécuté localement.
- Découvrez comment ajuster un modèle Gemma.
- Découvrez comment exécuter Gemma avec Ollama via les services Google Cloud Run.
- Découvrez comment exécuter Gemma avec Google Cloud.