Gemma 3n est disponible avec une entrée audio et est optimisé pour les appareils du quotidien. En savoir plus

Cette page a été traduite par l'API Cloud Translation.

Exécuter Gemma avec Ollama

Exécuter des modèles d'intelligence artificielle (IA) générative comme Gemma peut s'avérer difficile sans le matériel approprié. Les frameworks Open Source tels que llama.cpp et Ollama facilitent cette tâche en configurant un environnement d'exécution préconfiguré qui vous permet d'exécuter des versions de Gemma avec moins de ressources de calcul. En fait, avec llama.cpp et Ollama, vous pouvez exécuter des versions de Gemma sur un ordinateur portable ou un autre petit appareil informatique sans processeur graphique (GPU).

Pour exécuter des modèles Gemma avec moins de ressources de calcul, les frameworks llama.cpp et Ollama utilisent des versions quantifiées des modèles au format de fichier de modèle GGUF (Georgi Gerganov Unified Format). Ces modèles quantifiés sont modifiés pour traiter les requêtes à l'aide de données plus petites et moins précises. L'utilisation de données moins précises dans les modèles quantifiés pour traiter les requêtes réduit généralement la qualité de la sortie des modèles, mais présente l'avantage de réduire également les coûts des ressources de calcul.

Ce guide explique comment configurer et utiliser Ollama pour exécuter Gemma afin de générer des réponses textuelles.

Configuration

Cette section explique comment configurer Ollama et préparer une instance de modèle Gemma pour répondre aux requêtes, y compris demander l'accès au modèle, installer un logiciel et configurer un modèle Gemma dans Ollama.

Accéder aux modèles Gemma

Avant de travailler avec des modèles Gemma, assurez-vous d'avoir demandé l'accès via Kaggle et d'avoir lu les Conditions d'utilisation de Gemma.

Installer Ollama

Avant de pouvoir utiliser Gemma avec Ollama, vous devez télécharger et installer le logiciel Ollama sur votre appareil informatique.

Pour télécharger et installer Ollama:

Accédez à la page de téléchargement : https://ollama.com/download.
Sélectionnez votre système d'exploitation, cliquez sur le bouton Télécharger ou suivez les instructions sur la page de téléchargement.
Installez l'application en exécutant le programme d'installation.
- Windows:exécutez le fichier d'installation *.exe et suivez les instructions.
- Mac:décompressez le package ZIP et déplacez le dossier de l'application Ollama dans le répertoire Applications.
- Linux:suivez les instructions de l'installateur de script bash.
Vérifiez qu'Ollama est installé en ouvrant une fenêtre de terminal et en saisissant la commande suivante:
```
ollama --version
```

Une réponse semblable à ollama version is #.#.## doit s'afficher. Si vous n'obtenez pas ce résultat, assurez-vous que l'exécutable Ollama est ajouté au chemin d'accès de votre système d'exploitation.

Configurer Gemma dans Ollama

Le package d'installation d'Ollama n'inclut aucun modèle par défaut. Vous téléchargez un modèle à l'aide de la commande pull.

Pour configurer Gemma dans Ollama:

Téléchargez et configurez la variante Gemma 3 par défaut en ouvrant une fenêtre de terminal et en saisissant la commande suivante:
```
ollama pull gemma3
```
Une fois le téléchargement terminé, vous pouvez vérifier que le modèle est disponible à l'aide de la commande suivante:
```
ollama list
```

Par défaut, Ollama télécharge la variante du modèle Gemma avec 4 milliards de paramètres et une quantification sur 4 bits (Q4_0). Vous pouvez également télécharger et utiliser d'autres tailles du modèle Gemma en spécifiant une taille de paramètre.

Les modèles sont spécifiés sous la forme <model_name>:<tag>. Pour Gemma 3, quatre tailles: paramètres 1 B, 4 B, 12 B et 27 B:

Paramètres 1B gemma3:1b
Paramètres 4B gemma3:4b
Paramètres 12B gemma3:12b
Paramètres 27B gemma3:27b

Vous trouverez les balises disponibles sur le site Web d'Ollama, y compris Gemma 3, Gemma 2 et Gemma.

Générer des réponses

Une fois que vous avez terminé d'installer un modèle Gemma dans Ollama, vous pouvez générer immédiatement des réponses à l'aide de la commande run de l'interface de ligne de commande d'Ollama. Ollama configure également un service Web pour accéder au modèle, que vous pouvez tester à l'aide de la commande curl.

Pour générer une réponse à partir de la ligne de commande:

Dans une fenêtre de terminal, saisissez la commande suivante:
```
ollama run gemma3 "roses are red"
```
Incluez le chemin d'accès à votre image pour utiliser une entrée visuelle:
```
ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
```

Pour générer une réponse à l'aide du service Web local Ollama:

Dans une fenêtre de terminal, saisissez la commande suivante:

curl http://localhost:11434/api/generate -d '{\
  "model": "gemma3",\
  "prompt":"roses are red"\
}'

Incluez une liste d'images encodées en base64 pour utiliser une entrée visuelle:

curl http://localhost:11434/api/generate -d '{\
  "model": "gemma3",\
  "prompt":"caption this image",\
  "images":[...]\
}'

Modèles Gemma réglés

Ollama fournit un ensemble de variantes de modèles Gemma officielles à utiliser immédiatement, qui sont quantifiées et enregistrées au format GGUF. Vous pouvez utiliser vos propres modèles Gemma optimisés avec Ollama en les convertissant au format GGUF. Ollama inclut certaines fonctions permettant de convertir les modèles affinés d'un format de fichier de modèle en GGUF. Pour savoir comment convertir votre modèle affiné en GGUF, consultez le fichier README d'Ollama.

Étapes suivantes

Une fois que vous avez exécuté Gemma avec Ollama, vous pouvez commencer à tester et à créer des solutions avec les fonctionnalités d'IA générative de Gemma. L'interface de ligne de commande d'Ollama peut être utile pour créer des solutions de script. L'interface de service Web local Ollama peut être utile pour créer des applications expérimentales et à faible volume d'utilisation.

Essayez d'effectuer une intégration à l'aide du service Web Ollama pour créer un assistant de code personnel exécuté localement.
Découvrez comment ajuster un modèle Gemma.
Découvrez comment exécuter Gemma avec Ollama via les services Google Cloud Run.
Découvrez comment exécuter Gemma avec Google Cloud.