Ohne die richtige Hardware kann es schwierig sein, generative KI-Modelle wie Gemma auszuführen. Open-Source-Frameworks wie llama.cpp und Ollama erleichtern dies, da sie eine vorkonfigurierte Laufzeitumgebung einrichten, mit der Sie Versionen von Gemma mit weniger Rechenressourcen ausführen können. Mit llama.cpp und Ollama können Sie Versionen von Gemma auf einem Laptop oder einem anderen kleinen Computing-Gerät ohne Grafikprozessor (GPU) ausführen.
Um Gemma-Modelle mit weniger Rechenressourcen auszuführen, verwenden die Frameworks „llama.cpp“ und „Ollama“ quantisierte Versionen der Modelle im Modelldateiformat „Georgi Gerganov Unified Format“ (GGUF). Diese quantisierten Modelle werden so modifiziert, dass Anfragen mit kleineren, weniger genauen Daten verarbeitet werden. Wenn Sie weniger präzise Daten in quantisierten Modellen verwenden, um Anfragen zu verarbeiten, sinkt in der Regel die Qualität der Modellausgabe. Der Vorteil besteht jedoch darin, dass auch die Kosten für Rechenressourcen gesenkt werden.
In diesem Leitfaden wird beschrieben, wie Sie Ollama einrichten und verwenden, um Gemma auszuführen und Textantworten zu generieren.
Einrichtung
In diesem Abschnitt wird beschrieben, wie Sie Ollama einrichten und eine Gemma-Modellinstanz vorbereiten, um auf Anfragen zu reagieren. Dazu gehört auch, den Modellzugriff anzufordern, Software zu installieren und ein Gemma-Modell in Ollama zu konfigurieren.
Zugriff auf Gemma-Modelle erhalten
Bevor Sie mit Gemma-Modellen arbeiten, müssen Sie über Kaggle Zugriff anfordern und die Gemma-Nutzungsbedingungen lesen.
Ollama installieren
Bevor Sie Gemma mit Ollama verwenden können, müssen Sie die Ollama-Software auf Ihr Gerät herunterladen und installieren.
So laden Sie Ollama herunter und installieren es:
- Rufen Sie die Downloadseite auf: https://ollama.com/download
- Wählen Sie Ihr Betriebssystem aus, klicken Sie auf die Schaltfläche Herunterladen oder folgen Sie der Anleitung auf der Downloadseite.
- Installieren Sie die Anwendung, indem Sie das Installationsprogramm ausführen.
- Windows:Führen Sie die Installationsdatei *.exe aus und folgen Sie der Anleitung.
- Mac:Entpacken Sie das ZIP-Paket und verschieben Sie den Ordner Ollama in das Verzeichnis Applications.
- Linux:Folgen Sie der Anleitung im Bash-Script-Installationsprogramm.
Prüfen Sie, ob Ollama installiert ist. Öffnen Sie dazu ein Terminalfenster und geben Sie den folgenden Befehl ein:
ollama --version
Die Antwort sollte in etwa so aussehen: ollama version is #.#.##
. Wenn Sie dieses Ergebnis nicht erhalten, prüfen Sie, ob die ausführbare Ollama-Datei dem Pfad Ihres Betriebssystems hinzugefügt wurde.
Gemma in Ollama konfigurieren
Das Ollama-Installationspaket enthält standardmäßig keine Modelle. Sie laden ein Modell mit dem Befehl pull
herunter.
So konfigurieren Sie Gemma in Ollama:
Laden Sie die Standardvariante von Gemma 3 herunter und konfigurieren Sie sie. Öffnen Sie dazu ein Terminalfenster und geben Sie den folgenden Befehl ein:
ollama pull gemma3
Nach Abschluss des Downloads können Sie mit dem folgenden Befehl prüfen, ob das Modell verfügbar ist:
ollama list
Standardmäßig lädt Ollama die Gemma-Modellvariante mit 4 Milliarden Parametern und 4-Bit-Quantisierung (Q4_0) herunter. Sie können auch andere Größen des Gemma-Modells herunterladen und verwenden, indem Sie einen Parameter für die Größe angeben.
Modelle werden als <model_name>:<tag>
angegeben. Für Gemma 3 gibt es vier Größen: 1B, 4B, 12B und 27B-Parameter:
- 1B-Parameter
gemma3:1b
- 4B-Parameter
gemma3:4b
- 12B-Parameter
gemma3:12b
- 27B-Parameter
gemma3:27b
Die verfügbaren Tags finden Sie auf der Ollama-Website, darunter Gemma 3, Gemma 2 und Gemma.
Antworten generieren
Wenn Sie die Installation eines Gemma-Modells in Ollama abgeschlossen haben, können Sie sofort Antworten mit dem Befehl run
der Befehlszeilenoberfläche von Ollama generieren.
Ollama konfiguriert auch einen Webdienst für den Zugriff auf das Modell, den Sie mit dem Befehl curl
testen können.
So generieren Sie eine Antwort über die Befehlszeile:
Geben Sie in einem Terminalfenster den folgenden Befehl ein:
ollama run gemma3 "roses are red"
Geben Sie den Pfad zu Ihrem Bild an, um eine visuelle Eingabe zu verwenden:
ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
So generieren Sie eine Antwort mit dem lokalen Webdienst von Ollama:
Geben Sie in einem Terminalfenster den folgenden Befehl ein:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"roses are red"\ }'
Fügen Sie eine Liste mit Base64-codierten Bildern hinzu, um eine visuelle Eingabe zu verwenden:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"caption this image",\ "images":[...]\ }'
Abgestimmte Gemma-Modelle
Ollama bietet eine Reihe offizieller Gemma-Modellvarianten zur sofortigen Verwendung, die quantisiert und im GGUF-Format gespeichert werden. Sie können Ihre eigenen optimierten Gemma-Modelle mit Ollama verwenden, indem Sie sie in das GGUF-Format konvertieren. Ollama enthält einige Funktionen zum Konvertieren optimierter Modelle aus einem Modelldateiformat in GGUF. Weitere Informationen zum Konvertieren Ihres optimierten Modells in GGUF finden Sie in der Ollama-README.
Nächste Schritte
Sobald Gemma mit Ollama ausgeführt wird, können Sie mit den generativen KI-Funktionen von Gemma experimentieren und Lösungen entwickeln. Die Befehlszeile für Ollama kann für die Erstellung von Scripting-Lösungen nützlich sein. Die lokale Webservice-Schnittstelle von Ollama kann für die Entwicklung experimenteller Anwendungen und Anwendungen mit geringem Nutzungsvolumen nützlich sein.
- Sie können den Ollama-Webdienst integrieren, um einen lokal ausgeführten persönlichen Codeassistenten zu erstellen.
- Weitere Informationen zum Optimieren eines Gemma-Modells
- Informationen zum Ausführen von Gemma mit Ollama über Google Cloud Run-Dienste.
- Weitere Informationen zum Ausführen von Gemma mit Google Cloud