Jeśli chcesz uruchomić model Gemma, musisz podjąć 2 kluczowe decyzje: 1) który wariant Gemmy chcesz uruchomić i 2) jakiej platformy wykonawczej AI użyjesz do jego uruchomienia. W obu przypadkach kluczową kwestią jest to, jaki sprzęt jest dostępny dla Ciebie i Twoich użytkowników do uruchomienia modelu.
Ten przegląd pomoże Ci podjąć te decyzje i zacząć pracę z modelami Gemma. Ogólne kroki uruchamiania modelu Gemma są następujące:
- Wybierz platformę do uruchamiania.
- Wybierz wariant Gemmy.
- Uruchom żądania generowania i wnioskowania.
Wybierz platformę
Modele Gemma są zgodne z wieloma narzędziami ekosystemu. Wybór odpowiedniego narzędzia zależy od dostępnego sprzętu (GPU w chmurze lub lokalny laptop) i preferowanego interfejsu (kod Python lub aplikacja na komputer).
W tabeli poniżej znajdziesz informacje, które pomogą Ci szybko określić najlepsze narzędzie dla Twoich potrzeb:
| Jeśli chcesz... | Zalecana platforma | Najlepsze na |
|---|---|---|
| Uruchamiać lokalnie za pomocą interfejsu czatu | - LM Studio - Ollama |
Początkujących użytkowników lub tych, którzy chcą korzystać z laptopa w sposób podobny do Gemini. |
| Uruchamiać wydajnie na urządzeniu brzegowym | - LiteRT-LM - llama.cpp - MediaPipe LLM Inference API - MLX |
Wnioskowanie lokalne o wysokiej wydajności przy minimalnym wykorzystaniu zasobów. |
| Tworzyć/trenować w Pythonie | - Biblioteka Gemma dla JAX - Hugging Face Transformers - Keras - Unsloth |
Badaczy i programistów tworzących niestandardowe aplikacje lub dostrajających modele. |
| Wdrażać w środowisku produkcyjnym lub firmowym | - Google Cloud Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM |
Skalowalne, zarządzane wdrożenie w chmurze z zabezpieczeniami dla firm i obsługą MLOps. |
Szczegóły platformy
Poniżej znajdziesz przewodniki dotyczące uruchamiania modeli Gemma podzielone według środowiska wdrożenia.
1. Wnioskowanie na komputerze i lokalne (wysoka wydajność)
Te narzędzia umożliwiają uruchamianie Gemmy na sprzęcie konsumenckim (laptopy, komputery stacjonarne) dzięki wykorzystaniu zoptymalizowanych formatów (takich jak GGUF) lub konkretnych akceleratorów sprzętowych.
- LM Studio: aplikacja na komputer, która umożliwia pobieranie modeli Gemma i prowadzenie z nimi rozmów w przyjaznym dla użytkownika interfejsie. Nie musisz się znać na programowaniu.
- llama.cpp: popularny port Lamy (i Gemmy) w języku C++ o otwartym kodzie źródłowym, który działa niezwykle szybko na procesorach i układach Apple Silicon.
- LiteRT-LM: udostępnia interfejs wiersza poleceń
(CLI) do uruchamiania zoptymalizowanych
.litertlmmodeli Gemma na komputerze (Windows, Linux, macOS) z wykorzystaniem LiteRT (wcześniej TFLite). MLX: platforma zaprojektowana specjalnie do uczenia maszynowego na układach Apple Silicon, idealna dla użytkowników komputerów Mac, którzy chcą korzystać z wbudowanej wydajności.
Ollama: narzędzie do lokalnego uruchamiania otwartych modeli LLM, często używane do obsługi innych aplikacji.
2. Programowanie w Pythonie (badania i dostrajanie)
Standardowe platformy dla programistów AI tworzących aplikacje, potoki lub modele treningowe.
- Hugging Face Transformers: standard branżowy zapewniający szybki dostęp do modeli i potoków.
- Unsloth: zoptymalizowana biblioteka do dostrajania modeli LLM. Umożliwia trenowanie modeli Gemma 2–5 razy szybciej przy znacznie mniejszym zużyciu pamięci, co pozwala na dostrajanie na GPU konsumenckich (np. w bezpłatnych wersjach Google Colab).
- Keras / JAX: podstawowe biblioteki do badań nad deep learningiem i implementacji niestandardowych architektur.
3. Wdrażanie na urządzeniach mobilnych i brzegowych (na urządzeniu)
Platformy zaprojektowane do uruchamiania modeli LLM bezpośrednio na urządzeniach użytkowników (Android, iOS, internet) bez połączenia z internetem, często z wykorzystaniem NPU (jednostek przetwarzania neuronowego).
- LiteRT-LM: platforma o otwartym kodzie źródłowym do tworzenia modeli LLM na urządzeniach, która zapewnia maksymalną wydajność i szczegółową kontrolę, z bezpośrednią obsługą akceleracji procesora, GPU i NPU na Androidzie i iOS.
- MediaPipe LLM Inference API: najprostszy sposób na zintegrowanie Gemmy z aplikacjami wieloplatformowymi. Udostępnia interfejs API wysokiego poziomu, który działa na Androidzie, iOS i w internecie.
4. Wdrażanie w chmurze i środowisku produkcyjnym
Usługi zarządzane do skalowania aplikacji do tysięcy użytkowników lub uzyskiwania dostępu do ogromnej mocy obliczeniowej.
- Vertex AI: usługa w pełni zarządzana platforma AI Google Cloud. Najlepsza do aplikacji firmowych wymagających umów SLA i skalowania.
- Google Cloud Kubernetes Engine (GKE): do koordynowania własnych klastrów obsługujących.
- vLLM
Upewnij się, że wybrana platforma obsługuje format modelu Gemma, który chcesz wdrożyć, np. wbudowany format Keras, Safetensors lub GGUF.
Wybierz wariant Gemmy
Modele Gemma są dostępne w kilku wariantach i rozmiarach, w tym w podstawowych modelach Gemmacore oraz w bardziej wyspecjalizowanych wariantach, takich jak PaliGemma i DataGemma, a także w wielu wariantach utworzonych przez społeczność programistów AI na stronach takich jak Kaggle i Hugging Face. Jeśli nie wiesz od którego wariantu zacząć, wybierz najnowszy podstawowy model Gemma dostrojony pod kątem instrukcji (IT) z najmniejszą liczbą parametrów. Ten typ modelu Gemma ma niskie wymagania obliczeniowe i może odpowiadać na wiele promptów bez konieczności dodatkowego programowania.
Podczas wybierania wariantu Gemmy weź pod uwagę te czynniki:
- Podstawowy model Gemma i inne rodziny wariantów, takie jak PaliGemma i CodeGemma: zalecamy podstawowy model Gemma Warianty Gemmy inne niż podstawowe mają tę samą architekturę co model podstawowy i są trenowane pod kątem lepszego wykonywania określonych zadań. Jeśli Twoja aplikacja lub cele są zgodne ze specjalizacją konkretnego wariantu Gemmy, najlepiej zacząć od podstawowego modelu Gemma.
- Dostrojony pod kątem instrukcji (IT), wstępnie wytrenowany (PT), dostrojony (FT), mieszany
(mix): zalecamy IT.
- Warianty Gemmy dostrojone pod kątem instrukcji (IT) to modele, które zostały wytrenowane pod kątem odpowiadania na różne instrukcje lub prośby w języku naturalnym. Te warianty modelu są najlepszym punktem wyjścia, ponieważ mogą odpowiadać na prompty bez dodatkowego trenowania.
- Warianty Gemmy wstępnie wytrenowane (PT) to modele, które zostały wytrenowane pod kątem wnioskowania o języku lub innych danych, ale nie zostały wytrenowane pod kątem wykonywania instrukcji. Modele te wymagają dodatkowego trenowania lub dostrajania, aby mogły skutecznie wykonywać zadania. Są przeznaczone dla badaczy lub programistów, którzy chcą badać lub rozwijać możliwości modelu i jego architektury.
- Warianty Gemmy dostrojone (FT) można uznać za warianty IT, ale są one zwykle trenowane pod kątem wykonywania określonego zadania lub osiągania dobrych wyników w określonym teście porównawczym generatywnej AI. Rodzina wariantów PaliGemma obejmuje kilka wariantów FT.
- Warianty Gemmy mieszane (mix) to wersje modeli PaliGemma, które zostały dostrojone pod kątem instrukcji za pomocą różnych instrukcji i nadają się do ogólnego użytku.
- Parametry: zalecamy najmniejszą dostępną liczbę. Ogólnie rzecz biorąc, im więcej parametrów ma model, tym jest bardziej wydajny. Uruchamianie większych modeli wymaga jednak większych i bardziej złożonych zasobów obliczeniowych, co zwykle spowalnia rozwój aplikacji AI. Jeśli nie masz pewności, że mniejszy model Gemma nie spełni Twoich potrzeb, wybierz model z małą liczbą parametrów.
- Poziomy kwantyzacji: zalecamy półprecyzyjną (16-bitową), z wyjątkiem dostrajania. Kwantyzacja to złożony temat, który sprowadza się do rozmiaru i precyzji danych, a co za tym idzie – do ilości pamięci, jaką model generatywnej AI wykorzystuje do obliczeń i generowania odpowiedzi. Po wytrenowaniu modelu na podstawie danych o wysokiej precyzji, które zwykle są danymi zmiennoprzecinkowymi 32-bitowymi, modele takie jak Gemma można modyfikować, aby używały danych o niższej precyzji, np. 16-, 8- lub 4-bitowych. Te skwantyzowane modele Gemma mogą nadal działać dobrze, w zależności od złożoności zadań, przy znacznie mniejszym wykorzystaniu zasobów obliczeniowych i pamięci. Narzędzia do dostrajania skwantyzowanych modeli są jednak ograniczone i mogą nie być dostępne w wybranej platformie do tworzenia AI. Zwykle model taki jak Gemma trzeba dostroić z pełną precyzją, a następnie skwantyzować uzyskany model.
Listę najważniejszych modeli Gemma opublikowanych przez Google znajdziesz w artykule Pierwsze kroki z modelami Gemma, Lista modeli Gemma.
Uruchom żądania generowania i wnioskowania
Po wybraniu platformy wykonawczej AI i wariantu Gemmy możesz zacząć uruchamiać model i prosić go o generowanie treści lub wykonywanie zadań. Więcej informacji o tym, jak uruchomić Gemmę za pomocą konkretnej platformy, znajdziesz w przewodnikach, do których linki znajdziesz w sekcji Wybierz platformę.
Formatowanie promptów
Wszystkie warianty Gemmy dostrojone pod kątem instrukcji mają określone wymagania dotyczące formatowania promptów. Niektóre z tych wymagań dotyczących formatowania są obsługiwane automatycznie przez platformę, której używasz do uruchamiania modeli Gemma, ale gdy wysyłasz dane promptów bezpośrednio do tokenizera, musisz dodać określone tagi. Wymagania dotyczące tagowania mogą się różnić w zależności od używanego wariantu Gemmy. Informacje o formatowaniu promptów i instrukcjach systemowych wariantów Gemmy znajdziesz w tych przewodnikach: