Uruchamianie modeli generatywnej sztucznej inteligencji (AI), takich jak Gemma, może być trudne bez odpowiedniego sprzętu. Ułatwiają to platformy open source, takie jak llama.cpp i Ollama, które konfigurują wstępnie skonfigurowane środowisko wykonawcze umożliwiające uruchamianie wersji Gemmy przy użyciu mniejszej ilości zasobów obliczeniowych. Korzystając z llama.cpp i Ollamy, możesz uruchamiać wersje Gemmy na laptopie lub innym małym urządzeniu obliczeniowym bez procesora graficznego (GPU).
Aby uruchamiać modele Gemma przy użyciu mniejszej ilości zasobów obliczeniowych, platformy llama.cpp i Ollama korzystają ze skwantyzowanych wersji modeli w formacie plików modelu Georgi Gerganov Unified Format (GGUF). Te skwantyzowane modele są modyfikowane w taki sposób, aby przetwarzać żądania przy użyciu mniejszych i mniej precyzyjnych danych. Używanie mniej precyzyjnych danych w modelach skwantyzowanych do przetwarzania żądań zwykle obniża jakość danych wyjściowych modelu, ale ma też tę zaletę, że obniża koszty zasobów obliczeniowych.
Z tego przewodnika dowiesz się, jak skonfigurować i używać Ollamy do uruchamiania modelu Gemma w celu generowania odpowiedzi tekstowych.
Konfiguracja
W tej sekcji opisujemy, jak skonfigurować Ollamę i przygotować instancję modelu Gemma do odpowiadania na żądania, w tym jak poprosić o dostęp do modelu, zainstalować oprogramowanie i skonfigurować model Gemma w Ollamie.
Instalowanie Ollamy
Zanim zaczniesz korzystać z Gemma w Ollama, musisz pobrać i zainstalować oprogramowanie Ollama na urządzeniu.
Aby pobrać i zainstalować Ollamę:
- Otwórz stronę pobierania: https://ollama.com/download
- Wybierz system operacyjny, kliknij przycisk Pobierz lub postępuj zgodnie z instrukcjami na stronie pobierania.
- Zainstaluj aplikację, uruchamiając instalator.
- Windows: uruchom plik instalatora *.exe i postępuj zgodnie z instrukcjami.
- Mac: rozpakuj pakiet ZIP i przenieś folder aplikacji Ollama do katalogu Applications.
- Linux: postępuj zgodnie z instrukcjami w instalatorze skryptu bash.
Sprawdź, czy Ollama jest zainstalowana. W tym celu otwórz okno terminala i wpisz to polecenie:
ollama --version
Powinna pojawić się odpowiedź podobna do tej: ollama version is #.#.##. Jeśli nie uzyskasz takiego wyniku, sprawdź, czy plik wykonywalny Ollama został dodany do ścieżki systemu operacyjnego.
Konfigurowanie Gemma w Ollama
Pakiet instalacyjny Ollama domyślnie nie zawiera żadnych modeli. Model pobierasz za pomocą polecenia pull.
Aby skonfigurować model Gemma w Ollama:
Pobierz i skonfiguruj domyślną wersję modelu Gemma 4, otwierając okno terminala i wpisując to polecenie:
ollama pull gemma4
Po zakończeniu pobierania możesz sprawdzić, czy model jest dostępny, używając tego polecenia:
ollama list
Modele są określane jako <model_name>:<tag>. W przypadku Gemy 4 dostępne są 4 rozmiary: E2B, E4B, 26B i 31B:
- Parametry E2B
gemma4:e2b - Parametry E4B
gemma4:e4b - 26B A4B Parameters
gemma4:26b - Parametry 31B
gemma4:31b
Dostępne tagi znajdziesz na stronie Ollama, m.in. Gemma 4, Gemma 3n, Gemma 3, Gemma 2 i Gemma.
Generowanie odpowiedzi
Po zakończeniu instalacji modelu Gemma w Ollamie możesz od razu generować odpowiedzi za pomocą polecenia run w interfejsie wiersza poleceń Ollamy. Ollama konfiguruje też usługę internetową do uzyskiwania dostępu do modelu, którą możesz przetestować za pomocą polecenia curl.
Aby wygenerować odpowiedź z wiersza poleceń:
w oknie terminala, wpisując to polecenie:
ollama run gemma4 "roses are red"Aby użyć danych wizualnych, podaj ścieżkę do obrazu:
ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
Aby wygenerować odpowiedź za pomocą lokalnej usługi internetowej Ollama:
w oknie terminala, wpisując to polecenie:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"roses are red"\ }'Aby użyć danych wizualnych, dołącz listę obrazów zakodowanych w base64:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"caption this image",\ "images":[...]\ }'
Dostrojone modele Gemma
Ollama udostępnia zestaw oficjalnych wariantów modelu Gemma do natychmiastowego użycia, które są skwantyzowane i zapisane w formacie GGUF. Możesz używać własnych dostosowanych modeli Gemma w Ollamie, konwertując je do formatu GGUF. Ollama zawiera funkcje do konwertowania dostrojonych modeli z formatu Modelfile na GGUF. Więcej informacji o tym, jak przekonwertować dostrojony model na format GGUF, znajdziesz w README Ollamy.
Dalsze kroki
Gdy Gemma będzie działać w Ollamie, możesz zacząć eksperymentować i tworzyć rozwiązania z wykorzystaniem funkcji generatywnej AI Gemmy. Interfejs wiersza poleceń Ollamy może być przydatny do tworzenia rozwiązań skryptowych. Interfejs lokalnej usługi internetowej Ollama może być przydatny do tworzenia aplikacji eksperymentalnych i o niskim poziomie wykorzystania.
- Spróbuj zintegrować usługę internetową Ollama, aby utworzyć lokalnie działającego osobistego asystenta do pisania kodu.
- Dowiedz się, jak dostroić model Gemma.
- Dowiedz się, jak uruchamiać model Gemma za pomocą Ollamy przy użyciu usług Google Cloud Run.
- Dowiedz się, jak uruchamiać model Gemma w Google Cloud.