Jeśli chcesz uruchomić model Gemma, musisz podjąć 2 kluczowe decyzje: 1) jaki wariant Gemma chcesz uruchomić i 2) jakiej platformy do wykonywania AI użyjesz do jego uruchomienia. Kluczowym czynnikiem przy podejmowaniu tych decyzji jest sprzęt, który Ty i Twoi użytkownicy macie do dyspozycji na potrzeby uruchamiania modelu.
Ten przegląd pomoże Ci podjąć te decyzje i rozpocząć pracę z modelami Gemma. Ogólne czynności związane z uruchamianiem modelu Gemma:
- Wybór platformy do uruchamiania
- Wybieranie wariantu Gemma
- Wykonywanie żądań generowania i wyciągania wniosków
Wybieranie ramowego rozwiązania
Modele Gemma są zgodne z różnymi platformami do wykonywania generatywnej AI. Jednym z kluczowych czynników wpływających na decyzję o wykorzystaniu modelu Gemma jest to, jakie zasoby obliczeniowe masz (lub będziesz mieć) dostępne do jego uruchamiania. Większość kompatybilnych frameworków AI wymaga sprzętu specjalistycznego, takiego jak GPU lub TPU, aby skutecznie uruchamiać model Gemma. Narzędzie takie jak Google Colab może udostępniać te wyspecjalizowane zasoby obliczeniowe w ograniczonym zakresie. Niektóre platformy do wykonywania AI, takie jak Ollama i Gemma.cpp, umożliwiają uruchamianie Gemma na bardziej popularnych procesorach z architekturą zgodną z x86 lub ARM.
Oto przewodniki dotyczące uruchamiania modeli Gemma w różnych środowiskach wykonawczych AI:
- Ollama
- Hugging Face Transformers
- Biblioteka Gemma dla JAX
- Keras
- PyTorch
- MediaPipe LLM Inference API
- Hugging Face Transformers
- Gemma.cpp
- vLLM
- Google Cloud Vertex AI
- Google Cloud Run
- Google Cloud Kubernetes Engine (GKE)
Upewnij się, że wybrany format modelu Gemma, np. format natywny Keras, Safetensors lub GGUF, jest obsługiwany przez wybraną platformę.
Wybierz wariant Gemma
Modele Gemma są dostępne w kilku wariantach i rozmiarach, w tym podstawowe modele Gemma i modele podstawowe oraz bardziej wyspecjalizowane warianty modeli, takie jak PaliGemma i DataGemma, a także wiele wariantów stworzonych przez społeczność programistów AI na stronach takich jak Kaggle i Hugging Face. Jeśli nie masz pewności, od którego wariantu zacząć, wybierz najnowszy model Gemma core z instrukcjami (IT) o najmniejszej liczbie parametrów. Ten typ modelu Gemma ma niskie wymagania dotyczące zasobów obliczeniowych i może odpowiadać na wiele różnych promptów bez konieczności dodatkowego rozwoju.
Wybierając wariant Gemma, weź pod uwagę te czynniki:
- Gemma core i inne rodziny wariantów, takie jak PaliGemma czy CodeGemma:zalecamy Gemma (core). Wersje Gemma inne niż główna mają tę samą architekturę co model główny i są trenowane, aby lepiej wykonywać określone zadania. Jeśli Twoje aplikacje lub cele nie pasują do specjalizacji konkretnego wariantu Gemma, najlepiej zacząć od podstawowego modelu Gemma.
- Instruction-tuned (IT), pre-trained (PT), fine-tuned (FT), mixed
(mix): Recommend IT.
- Dostrojone pod kątem instrukcji (IT) warianty modelu Gemma to modele, które zostały wytrenowane do reagowania na różne instrukcje lub prośby w języku ludzkim. Te warianty modelu to najlepszy punkt wyjścia, ponieważ mogą odpowiadać na prompty bez dalszego trenowania.
- Wstępnie wytrenowane (PT) warianty Gemma to modele, które zostały wytrenowane do wyciągania wniosków na podstawie języka lub innych danych, ale nie zostały wytrenowane do wykonywania instrukcji człowieka. Modele te wymagają dodatkowego trenowania lub dostosowania, aby mogły skutecznie wykonywać zadania. Są przeznaczone dla badaczy lub deweloperów, którzy chcą badać lub rozwijać możliwości modelu i jego architektury.
- Dostrojone (FT) warianty Gemma można uznać za warianty IT, ale są one zwykle trenowane do wykonywania określonego zadania lub osiągania dobrych wyników w ramach konkretnego benchmarku generatywnej AI. Rodzina wariantów PaliGemma obejmuje kilka wariantów FT.
- Zróżnicowane (mix) warianty modelu Gemma to wersje modeli PaliGemma, które zostały dostosowane do różnych instrukcji i są odpowiednie do ogólnego użytku.
- Parameters Rekomenduj najmniejszą dostępną liczbę. Ogólnie rzecz biorąc, im więcej parametrów ma model, tym jest on bardziej zaawansowany. Jednak uruchamianie większych modeli wymaga większych i bardziej złożonych zasobów obliczeniowych, co spowalnia rozwój aplikacji AI. Jeśli nie masz pewności, że mniejszy model Gemma nie spełni Twoich potrzeb, wybierz model z małą liczbą parametrów.
- Poziomy kwantowania: zalecamy użycie precyzji połowy (16-bitowej), z wyjątkiem strojenia. Kwantyzacja to złożony temat, który sprowadza się do rozmiaru i dokładności danych, a w konsekwencji do ilości pamięci, której model generatywnej AI używa do obliczeń i generowania odpowiedzi. Po wytrenowaniu modelu za pomocą danych o wysokiej precyzji, czyli zwykle 32-bitowych danych zmiennoprzecinkowych, modele takie jak Gemma można zmodyfikować, aby używały danych o niższej precyzji, np. 16-, 8- lub 4-bitowych. Te zagęszczone modele Gemma mogą nadal dobrze działać, w zależności od złożoności zadań, przy znacznie mniejszym wykorzystaniu zasobów obliczeniowych i pamięci. Narzędzia do dostrajania skwantyzowanych modeli są jednak ograniczone i mogą nie być dostępne w wybranym przez Ciebie frameworku do tworzenia AI. Zwykle trzeba dostroić model, taki jak Gemma, z pełną dokładnością, a potem zastosować kwantyzację.
Listę najważniejszych modeli Gemma opublikowanych przez Google znajdziesz w artykule Pierwsze kroki z modelami Gemma oraz na liście modeli Gemma.
Uruchamianie żądań generowania i wyciągania wniosków
Po wybraniu platformy do wykonywania AI i wersji Gemma możesz rozpocząć uruchamianie modelu i poprosić go o wygenerowanie treści lub wykonanie zadań. Więcej informacji o uruchamianiu Gemma z konkretną platformą znajdziesz w przewodniku dostępnym w sekcji Wybieranie platformy.
Formatowanie prompta
Wszystkie warianty Gemma z instrukcjami mają określone wymagania dotyczące formatowania promptów. Niektóre z tych wymagań dotyczących formatowania są obsługiwane automatycznie przez framework używany do uruchamiania modeli Gemma, ale jeśli wysyłasz dane prompta bezpośrednio do tokenizera, musisz dodać określone tagi. Wymagania dotyczące tagowania mogą się zmieniać w zależności od używanej wersji Gemma. Aby uzyskać informacje o formatowaniu promptów wariantów Gemma i instrukcjach dotyczących systemu, zapoznaj się z tymi przewodnikami: