Bez odpowiedniego sprzętu uruchamianie modeli generatywnej sztucznej inteligencji (AI) takich jak Gemma może być trudne. Frameworki open source, takie jak llama.cpp i Ollama, ułatwiają to zadanie, ponieważ konfigurują wstępnie środowisko uruchomieniowe, które pozwala uruchamiać wersje Gemma z mniejszymi zasobami obliczeniowymi. Za pomocą pliku llama.cpp i Ollama możesz uruchamiać wersje Gemma na laptopie lub innym urządzeniu do przetwarzania danych bez procesora graficznego (GPU).
Aby można było uruchamiać modele Gemma przy użyciu mniejszej ilości zasobów obliczeniowych, frameworki llama.cpp i Ollama korzystają z kwantowanych wersji modeli w formacie pliku modelu wygenerowanym przez GPT w jednolitym formacie (GGUF). Te modele z przekształconymi wartościami są modyfikowane, aby przetwarzać żądania przy użyciu mniejszych, mniej precyzyjnych danych. Korzystanie z mniej precyzyjnych danych w modelach kwantowanych do przetwarzania żądań zwykle obniża jakość danych wyjściowych modeli, ale ma też tę zaletę, że obniża koszty zasobów obliczeniowych.
Z tego przewodnika dowiesz się, jak skonfigurować i użyć Ollama do uruchomienia Gemma do generowania odpowiedzi tekstowych.
Konfiguracja
Z tej sekcji dowiesz się, jak skonfigurować Ollama i przygotować instancję modelu Gemma do obsługi żądań, w tym jak poprosić o dostęp do modelu, zainstalować oprogramowanie i skonfigurować model Gemma w Ollama.
Uzyskiwanie dostępu do modeli Gemma
Zanim zaczniesz korzystać z modeli Gemma, poproś o dostęp w Kaggle i zapoznaj się z Warunkami korzystania z Gemma.
Instalowanie Ollama
Zanim będzie można korzystać z Gemma z Ollama, musisz pobrać i zainstalować oprogramowanie Ollama na urządzeniu.
Aby pobrać i zainstalować Ollama:
- Otwórz stronę pobierania: https://ollama.com/download
- Wybierz system operacyjny, kliknij przycisk Pobierz lub postępuj zgodnie z instrukcjami na stronie pobierania.
- Zainstaluj aplikację, uruchamiając instalator.
- Windows: uruchom plik instalatora *.exe i postępuj zgodnie z instrukcjami.
- Mac: rozpakuj pakiet zip i przenieś folder aplikacji Ollama do katalogu Aplikacje.
- Linux: postępuj zgodnie z instrukcjami w instalatorze skryptu bash.
Aby sprawdzić, czy Ollama jest zainstalowana, otwórz okno terminala i wpisz to polecenie:
ollama --version
Powinna wyświetlić się odpowiedź podobna do tej: ollama version is #.#.##
. Jeśli nie uzyskasz takiego wyniku, sprawdź, czy plik wykonywalny Ollama został dodany do ścieżki systemu operacyjnego.
Konfigurowanie Gemma w Ollama
Pakiet instalacyjny Ollama domyślnie nie zawiera żadnych modeli. Pobierz model za pomocą polecenia pull
.
Aby skonfigurować Gemma w Ollama:
Pobierz i skonfiguruj domyślny wariant Gemma 2, otwierając okno terminala i wpisując to polecenie:
ollama pull gemma2
Po zakończeniu pobierania możesz sprawdzić, czy model jest dostępny, za pomocą tego polecenia:
ollama list
Domyślnie Ollama pobiera wariant modelu Gemma z 9 mld parametrów i 4-bitową kwantyzacją (Q4_0). Możesz też pobrać i użyć innych rozmiarów modelu Gemma, podając rozmiar parametru.
Modele są określone jako <model_name>:<tag>
. W przypadku modelu Gemma 2 z 2 miliardami parametrów wpisz gemma2:2b
. W przypadku modelu z 27 mld parametrami wpisz gemma2:27b
. Dostępne tagi znajdziesz na stronie Ollama, m.in. Gemma 2 i Gemma.
Generowanie odpowiedzi
Po zainstalowaniu modelu Gemma w Ollama możesz od razu generować odpowiedzi, używając polecenia run
w interfejsie wiersza poleceń Ollama.
Ollama konfiguruje też usługę internetową, która umożliwia dostęp do modelu. Możesz ją przetestować, używając polecenia curl
.
Aby wygenerować odpowiedź z poziomu wiersza poleceń:
W oknie terminala wpisz to polecenie:
ollama run gemma2 "roses are red"
Aby wygenerować odpowiedź za pomocą lokalnej usługi internetowej Ollama:
W oknie terminala wpisz to polecenie:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma2",\ "prompt":"roses are red"\ }'
Dostrojone modele Gemma
Ollama udostępnia zestaw oficjalnych wariantów modelu Gemma do natychmiastowego użycia, które są kwantowane i zapisane w formacie GGUF. Możesz używać własnych dostrojonych modeli Gemma z Ollama, konwertując je do formatu GGUF. Ollama zawiera funkcje umożliwiające konwertowanie dostrojonych modeli z formatu Modelfile na GGUF. Więcej informacji o konwertowaniu dostosowanego modelu na GGUF znajdziesz w README Ollama.
Dalsze kroki
Po uruchomieniu Gemma w Ollamie możesz zacząć eksperymentować i tworzyć rozwiązania z wykorzystaniem generatywnej AI. Interfejs wiersza poleceń Ollama może być przydatny do tworzenia rozwiązań z wykorzystaniem skryptów. Lokalny interfejs usługi internetowej Ollama może być przydatny do tworzenia eksperymentalnych aplikacji o małej liczbie użytkowników.
- Spróbuj zintegrować usługę internetową Ollama, aby utworzyć działający lokalnie asystent kodu.
- Dowiedz się, jak dostosowić model Gemma.
- Dowiedz się, jak uruchomić Gemma z Ollama za pomocą usług Google Cloud Run.
- Dowiedz się, jak uruchomić Gemma w Google Cloud.