Exécuter Gemma avec Ollama

L'exécution de modèles d'intelligence artificielle (IA) générative comme Gemma peut être difficile sans le matériel approprié. Les frameworks Open Source tels que llama.cpp et Ollama facilitent cette tâche en configurant un environnement d'exécution préconfiguré qui vous permet d'exécuter des versions de Gemma avec moins de ressources de calcul. En fait, avec llama.cpp et Ollama, vous pouvez exécuter des versions de Gemma sur un ordinateur portable ou un autre petit appareil informatique sans processeur graphique (GPU).

Pour exécuter des modèles Gemma avec moins de ressources de calcul, les frameworks llama.cpp et Ollama utilisent des versions quantifiées des modèles au format de fichier de modèle Georgi Gerganov Unified Format (GGUF). Ces modèles quantifiés sont modifiés pour traiter les requêtes à l'aide de données plus petites et moins précises. L'utilisation de données moins précises dans les modèles quantifiés pour traiter les requêtes réduit généralement la qualité de la sortie des modèles, mais présente l'avantage de réduire également les coûts des ressources de calcul.

Ce guide explique comment configurer et utiliser Ollama pour exécuter Gemma afin de générer des réponses textuelles.

Configuration

Cette section explique comment configurer Ollama et préparer une instance de modèle Gemma pour répondre aux requêtes, y compris demander l'accès au modèle, installer le logiciel et configurer un modèle Gemma dans Ollama.

Installer Ollama

Avant de pouvoir utiliser Gemma avec Ollama, vous devez télécharger et installer le logiciel Ollama sur votre appareil informatique.

Pour télécharger et installer Ollama :

  1. Accédez à la page de téléchargement : https://ollama.com/download.
  2. Sélectionnez votre système d'exploitation, cliquez sur le bouton Télécharger ou suivez les instructions de la page de téléchargement.
  3. Installez l'application en exécutant le programme d'installation.
    • Windows : exécutez le fichier *.exe du programme d'installation et suivez les instructions.
    • Mac : décompressez le package zip et déplacez le dossier d'application Ollama dans votre répertoire Applications.
    • Linux : suivez les instructions du programme d'installation du script bash.
  4. Vérifiez qu'Ollama est installé en ouvrant une fenêtre de terminal et en saisissant la commande suivante :

    ollama --version

Vous devriez voir une réponse semblable à : ollama version is #.#.##. Si ce n'est pas le cas, assurez-vous que l'exécutable Ollama est ajouté au chemin d'accès de votre système d'exploitation.

Configurer Gemma dans Ollama

Par défaut, le package d'installation d'Ollama n'inclut aucun modèle. Vous téléchargez un modèle à l'aide de la commande pull.

Pour configurer Gemma dans Ollama :

  1. Téléchargez et configurez la variante Gemma 4 par défaut en ouvrant une fenêtre de terminal et en saisissant la commande suivante :

    ollama pull gemma4

  2. Une fois le téléchargement terminé, vous pouvez vérifier que le modèle est disponible à l'aide de la commande suivante :

    ollama list

Les modèles sont spécifiés au format <model_name>:<tag>. Pour Gemma 4, quatre tailles : paramètres E2B, E4B, 26B et 31B :

  • Paramètres E2B gemma4:e2b
  • Paramètres E4B gemma4:e4b
  • Paramètres 26B A4B gemma4:26b
  • Paramètres 31B gemma4:31b

Vous trouverez les tags disponibles sur le site Web d'Ollama, y compris Gemma 4, Gemma 3n, Gemma 3, Gemma 2 et Gemma.

Générer des réponses

Une fois que vous avez terminé d'installer un modèle Gemma dans Ollama, vous pouvez générer des réponses immédiatement à l'aide de la commande run de l'interface de ligne de commande d'Ollama. Ollama configure également un service Web pour accéder au modèle, que vous pouvez tester à l'aide de la commande curl.

Pour générer une réponse à partir de la ligne de commande :

  • Dans une fenêtre de terminal, saisissez la commande suivante :

    ollama run gemma4 "roses are red"
    
  • Incluez le chemin d'accès à votre image pour utiliser une entrée visuelle :

    ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
    

Pour générer une réponse à l'aide du service Web local Ollama :

  • Dans une fenêtre de terminal, saisissez la commande suivante :

    curl http://localhost:11434/api/generate -d '{\
          "model": "gemma4",\
          "prompt":"roses are red"\
    }'
    
  • Incluez une liste d'images encodées en base64 pour utiliser une entrée visuelle :

    curl http://localhost:11434/api/generate -d '{\
          "model": "gemma4",\
          "prompt":"caption this image",\
          "images":[...]\
    }'
    

Modèles Gemma réglés

Ollama fournit un ensemble de variantes de modèles Gemma officiels à utiliser immédiatement, qui sont quantifiés et enregistrés au format GGUF. Vous pouvez utiliser vos propres modèles Gemma réglés avec Ollama en les convertissant au format GGUF. Ollama inclut certaines fonctions permettant de convertir des modèles réglés d'un format Modelfile au format GGUF. Pour en savoir plus sur la conversion de votre modèle réglé au format GGUF, consultez le fichier README d'Ollama.

Étapes suivantes

Une fois que Gemma est exécuté avec Ollama, vous pouvez commencer à expérimenter et à créer des solutions avec les fonctionnalités d'IA générative de Gemma. L'interface de ligne de commande d'Ollama peut être utile pour créer des solutions de script. L'interface du service Web local Ollama peut être utile pour créer des applications expérimentales et à faible volume d'utilisation.

  • Essayez d'intégrer le service Web Ollama pour créer un assistant de code personnel exécuté localement .
  • Découvrez comment ajuster un modèle Gemma.
  • Découvrez comment exécuter Gemma avec Ollama à l'aide des services Google Cloud Run.
  • Découvrez comment exécuter Gemma avec Google Cloud.