Jeśli chcesz uruchomić model Gemma, musisz podjąć 2 kluczowe decyzje: 1) którą wersję Gemmy chcesz uruchomić i 2) jakiej platformy do wykonywania AI zamierzasz użyć? W obu przypadkach kluczową kwestią jest to, jaki sprzęt jest dostępny dla Ciebie i Twoich użytkowników.
Ten przegląd pomoże Ci podjąć te decyzje i zacząć pracę z modelami Gemma. Ogólne kroki uruchamiania modelu Gemma:
- Wybierz platformę do uruchamiania.
- Wybierz wersję Gemmy.
- Uruchom żądania generowania i wnioskowania.
Wybierz platformę
Modele Gemma są zgodne z wieloma narzędziami ekosystemu. Wybór odpowiedniego narzędzia zależy od dostępnego sprzętu (GPU w chmurze lub lokalny laptop) i preferowanego interfejsu (kod w Pythonie lub aplikacja na komputer).
W tej tabeli znajdziesz najlepsze narzędzie do swoich potrzeb:
| Jeśli chcesz... | Zalecana platforma | Najlepsze na |
|---|---|---|
| Uruchamiać lokalnie za pomocą interfejsu czatu | - LM Studio - Ollama |
Początkujący lub użytkownicy, którzy chcą korzystać z laptopa w sposób podobny do Gemini. |
| Uruchamiać wydajnie na urządzeniu brzegowym | - LiteRT-LM - llama.cpp - MLX |
Wnioskowanie lokalne o wysokiej wydajności przy minimalnym wykorzystaniu zasobów. |
| Tworzyć/trenować w Pythonie | - Tunix (Tune-in-JAX) - Hugging Face Transformers - Keras - Unsloth |
Badacze i programiści tworzący niestandardowe aplikacje lub dostrajający modele. |
| Wdrażać w środowisku produkcyjnym lub firmowym | - Google Cloud Kubernetes Engine (GKE) - Gemini Enterprise Agent Platform - vLLM - SGLang |
Skalowalne, zarządzane wdrożenie w chmurze z zabezpieczeniami dla firm i obsługą MLOps. |
Szczegóły platformy
Poniżej znajdziesz przewodniki dotyczące uruchamiania modeli Gemma podzielone według środowiska wdrożenia.
1. Wnioskowanie na komputerze i lokalne (wysoka wydajność)
Te narzędzia umożliwiają uruchamianie Gemmy na sprzęcie konsumenckim (laptopy, komputery stacjonarne) dzięki wykorzystaniu zoptymalizowanych formatów (takich jak GGUF) lub konkretnych akceleratorów sprzętowych.
- LM Studio: aplikacja na komputer, która umożliwia pobieranie modeli Gemma i prowadzenie z nimi rozmów w przyjaznym dla użytkownika interfejsie. Nie musisz się znać na programowaniu.
- llama.cpp: popularny port Lamy (i Gemmy) w języku C++ o otwartym kodzie źródłowym, który działa niezwykle szybko na procesorach i układach Apple Silicon.
- LiteRT-LM: udostępnia interfejs wiersza poleceń
(CLI) do uruchamiania zoptymalizowanych
.litertlmmodeli Gemma na komputerze (Windows, Linux, macOS) z wykorzystaniem LiteRT (wcześniej TFLite). - MLX: platforma zaprojektowana specjalnie do uczenia maszynowego na układach Apple Silicon, idealna dla użytkowników komputerów Mac, którzy chcą korzystać z wbudowanej wydajności.
- Ollama: narzędzie do lokalnego uruchamiania otwartych modeli LLM, często używane do obsługi innych aplikacji.
2. Programowanie w Pythonie (badania i dostrajanie)
Standardowe platformy dla programistów AI tworzących aplikacje, potoki lub modele treningowe.
- Hugging Face Transformers: standard branżowy zapewniający szybki dostęp do modeli i potoków.
- Unsloth: zoptymalizowana biblioteka do dostrajania modeli LLM. Umożliwia trenowanie modeli Gemma 2–5 razy szybciej przy znacznie mniejszym zużyciu pamięci, co pozwala na dostrajanie na GPU konsumenckich (np. w bezpłatnych wersjach Google Colab).
- Keras / Tunix (Tune-in-JAX): podstawowe biblioteki do badań nad uczeniem głębokim i implementacji niestandardowych architektur.
3. Wdrażanie na urządzeniach mobilnych i brzegowych (na urządzeniu)
Platformy zaprojektowane do uruchamiania modeli LLM bezpośrednio na urządzeniach użytkowników (Android, iOS, internet) bez połączenia z internetem, często z wykorzystaniem NPU (jednostek przetwarzania neuronowego).
- LiteRT-LM: w pełni otwarta platforma do tworzenia modeli LLM na urządzeniach, która zapewnia maksymalną wydajność i szczegółową kontrolę, z bezpośrednią obsługą akceleracji procesora, GPU i NPU na Androidzie i iOS.
4. Wdrażanie w chmurze i środowisku produkcyjnym
Usługi zarządzane do skalowania aplikacji do tysięcy użytkowników lub uzyskiwania dostępu do ogromnej mocy obliczeniowej.
- Gemini Enterprise Agent Platform: w pełni zarządzana platforma AI od Google Cloud. Najlepsza do aplikacji firmowych wymagających umów SLA i skalowania.
- Google Cloud Kubernetes Engine (GKE): do zarządzania własnymi klastrami obsługującymi.
- vLLM
- SGLang: platforma obsługująca o wysokiej wydajności duże modele językowe i multimodalne.
Upewnij się, że wybrana platforma obsługuje format modelu Gemma, który chcesz wdrożyć, np. format wbudowany w Keras, Safetensors lub GGUF.
Wybierz wersję Gemmy
Kaggle Jeśli nie wiesz od której wersji zacząć, wybierz najnowszy podstawowy model Gemma dostrojony pod kątem instrukcji (IT) z najmniejszą liczbą parametrów. Ten typ modelu Gemma ma niskie wymagania obliczeniowe i może odpowiadać na wiele promptów bez konieczności dodatkowego programowania.
Przy wyborze wersji Gemmy weź pod uwagę te czynniki:
- Gemma core i inne rodziny wersji, takie jak PaliGemma, CodeGemma: zalecamy Gemmę (core). Wersje Gemmy inne niż podstawowa mają tę samą architekturę co model podstawowy i są trenowane pod kątem lepszego wykonywania określonych zadań. Jeśli Twoja aplikacja lub cele nie są zgodne ze specjalizacją konkretnej wersji Gemmy, najlepiej zacząć od podstawowego modelu Gemma.
- Dostrojony pod kątem instrukcji (IT), wstępnie wytrenowany (PT), dostrojony (FT), mieszany
(mix): zalecamy IT.
- Wersje Gemmy dostrojone pod kątem instrukcji (IT) to modele, które zostały wytrenowane pod kątem odpowiadania na różne instrukcje lub prośby w języku naturalnym. Te wersje modelu są najlepszym punktem wyjścia, ponieważ mogą odpowiadać na prompty bez dodatkowego trenowania.
- Wersje Gemmy wstępnie wytrenowane (PT) to modele, które zostały wytrenowane pod kątem wnioskowania o języku lub innych danych, ale nie zostały wytrenowane pod kątem wykonywania instrukcji. Modele te wymagają dodatkowego trenowania lub dostrajania, aby mogły skutecznie wykonywać zadania. Są przeznaczone dla badaczy lub programistów, którzy chcą badać lub rozwijać możliwości modelu i jego architektury.
- Wersje Gemmy dostrojone (FT) można uznać za wersje IT, ale są one zwykle trenowane pod kątem wykonywania określonego zadania lub osiągania dobrych wyników w określonym teście porównawczym generatywnej AI. Rodzina wersji PaliGemma obejmuje kilka wersji FT.
- Wersje Gemmy mieszane (mix) to wersje modeli PaliGemma, które zostały dostrojone pod kątem instrukcji za pomocą różnych instrukcji i nadają się do ogólnego użytku.
- Parametry: zalecamy najmniejszą dostępną liczbę. Ogólnie rzecz biorąc, im więcej parametrów ma model, tym jest bardziej wydajny. Jednak uruchamianie większych modeli wymaga większych i bardziej złożonych zasobów obliczeniowych, co zwykle spowalnia rozwój aplikacji AI. Jeśli nie masz pewności, że mniejszy model Gemma nie spełni Twoich potrzeb, wybierz model z małą liczbą parametrów.
- Poziomy kwantyzacji: zalecamy półprecyzyjność (16-bitową), z wyjątkiem dostrajania. Kwantyzacja to złożony temat, który sprowadza się do rozmiaru i precyzji danych, a co za tym idzie – do ilości pamięci, jaką model generatywnej AI wykorzystuje do obliczeń i generowania odpowiedzi. Po wytrenowaniu modelu na podstawie danych o wysokiej precyzji, które zwykle są danymi zmiennoprzecinkowymi 32-bitowymi, modele takie jak Gemma można modyfikować, aby używały danych o niższej precyzji, np. 16-, 8- lub 4-bitowych. Te skwantyzowane modele Gemma mogą nadal działać dobrze, w zależności od złożoności zadań, przy znacznie mniejszym wykorzystaniu zasobów obliczeniowych i pamięci. Narzędzia do dostrajania skwantyzowanych modeli są jednak ograniczone i mogą nie być dostępne w wybranej platformie do tworzenia AI. Zwykle model taki jak Gemma trzeba dostroić z pełną precyzją, a następnie skwantyzować uzyskany model.
Listę najważniejszych modeli Gemma opublikowanych przez Google znajdziesz w artykule Pierwsze kroki z modelami Gemma, Lista modeli Gemma.
Uruchom żądania generowania i wnioskowania
Po wybraniu platformy do wykonywania AI i wersji Gemmy możesz zacząć uruchamiać model i prosić go o generowanie treści lub wykonywanie zadań. Więcej informacji o tym, jak uruchamiać Gemmę za pomocą konkretnej platformy, znajdziesz w przewodnikach, do których linki znajdziesz w sekcji Wybierz platformę.
Formatowanie promptów
Wszystkie wersje Gemmy dostrojone pod kątem instrukcji mają określone wymagania dotyczące formatowania promptów. Niektóre z tych wymagań dotyczących formatowania są obsługiwane automatycznie przez platformę, której używasz do uruchamiania modeli Gemma, ale gdy wysyłasz dane promptów bezpośrednio do tokenizera, musisz dodać określone tagi. Wymagania dotyczące tagowania mogą się różnić w zależności od używanej wersji Gemmy. Informacje o formatowaniu promptów i instrukcjach systemowych w przypadku wersji Gemmy znajdziesz w tych przewodnikach: