Przeprowadzanie generowania treści i wyciągania wniosków przez Gemma

Jeśli chcesz uruchomić model Gemma, musisz podjąć 2 kluczowe decyzje: 1) którą wersję modelu Gemma chcesz uruchomić i 2) którego frameworka wykonawczego AI zamierzasz użyć do jego uruchomienia. Kluczowym problemem przy podejmowaniu obu tych decyzji jest to, jaki sprzęt jest dostępny dla Ciebie i Twoich użytkowników do uruchomienia modelu.

Ten przegląd pomoże Ci podjąć decyzje i zacząć korzystać z modeli Gemma. Ogólne kroki uruchamiania modelu Gemma są następujące:

Wybierz platformę

Modele Gemma są zgodne z wieloma narzędziami ekosystemu. Wybór odpowiedniego narzędzia zależy od dostępnego sprzętu (procesory GPU w chmurze lub lokalny laptop) i preferowanego interfejsu (kod w Pythonie lub aplikacja na komputer).

Skorzystaj z tej tabeli, aby szybko znaleźć narzędzie, które najlepiej odpowiada Twoim potrzebom:

Jeśli chcesz... Zalecane ramy Najlepsze na
Uruchamianie lokalne z interfejsem Google Chat LM Studio
Ollama
Początkujący użytkownicy lub osoby, które chcą korzystać z funkcji podobnych do Gemini na laptopie.
Wydajne działanie na urządzeniach brzegowych - Gemma.cpp
- LiteRT-LM
- llama.cpp
- MediaPipe LLM Inference API
- MLX
Wysoka wydajność wnioskowania lokalnego przy minimalnym wykorzystaniu zasobów.
Tworzenie i trenowanie w Pythonie - Biblioteka Gemma dla JAX
- Hugging Face Transformers
- Keras
- PyTorch
- Unsloth
Badacze i deweloperzy tworzący aplikacje niestandardowe lub dostrajający modele.
Wdrażanie w środowisku produkcyjnym lub w wersji Enterprise - Google Cloud Kubernetes Engine (GKE)
- Google Cloud Run
- Vertex AI
- vLLM
skalowalne, zarządzane wdrożenie w chmurze z zabezpieczeniami klasy korporacyjnej i obsługą MLOps.

Szczegóły platformy

Poniżej znajdziesz przewodniki dotyczące uruchamiania modeli Gemma podzielone według środowiska wdrażania.

1. Wnioskowanie na komputerze i lokalne (wysoka wydajność)

Te narzędzia umożliwiają uruchamianie modelu Gemma na sprzęcie konsumenckim (laptopach, komputerach stacjonarnych) dzięki wykorzystaniu zoptymalizowanych formatów (takich jak GGUF) lub konkretnych akceleratorów sprzętowych.

  • LM Studio: aplikacja na komputery, która umożliwia pobieranie modeli Gemma i rozmawianie z nimi w przyjaznym dla użytkownika interfejsie. Nie musisz się znać na programowaniu.
  • llama.cpp: popularna wersja open source w C++ modelu Llama (i Gemma), która działa niezwykle szybko na procesorach i Apple Silicon.
  • LiteRT-LM: udostępnia interfejs wiersza poleceń (CLI) do uruchamiania zoptymalizowanych modeli .litertlm Gemma na komputerach (Windows, Linux, macOS) z LiteRT (wcześniej TFLite).
  • MLX platforma zaprojektowana specjalnie do uczenia maszynowego na urządzeniach Apple Silicon. Jest idealna dla użytkowników komputerów Mac, którzy chcą korzystać z wbudowanej wydajności.
  • Gemma.cpp lekki, samodzielny silnik wnioskowania w C++ opracowany przez Google.
  • Ollama narzędzie do lokalnego uruchamiania otwartych modeli LLM, często używane do obsługi innych aplikacji.

2. Programowanie w Pythonie (badania i dostrajanie)

Standardowe platformy dla programistów AI tworzących aplikacje, potoki lub modele trenowania.

  • Hugging Face Transformers: standard branżowy zapewniający szybki dostęp do modeli i potoków.
  • Unsloth: zoptymalizowana biblioteka do dostrajania dużych modeli językowych. Umożliwia trenowanie modeli Gemma 2–5 razy szybciej przy znacznie mniejszym zużyciu pamięci, dzięki czemu można dostrajać modele na konsumenckich układach GPU (np. w bezpłatnych wersjach Google Colab).
  • Keras / JAX / PyTorch: podstawowe biblioteki do badań nad uczeniem głębokim i wdrażania niestandardowych architektur.

3. Wdrażanie na urządzeniach mobilnych i brzegowych

Frameworki zaprojektowane do uruchamiania dużych modeli językowych bezpośrednio na urządzeniach użytkowników (Android, iOS, internet) bez połączenia z internetem, często z wykorzystaniem jednostek NPU (Neural Processing Units).

  • LiteRT-LM: w pełni otwarta platforma do tworzenia modeli LLM na urządzeniach, która zapewnia maksymalną wydajność i szczegółową kontrolę, a także bezpośrednią obsługę akceleracji procesora, GPU i NPU na Androidzie i iOS.
  • MediaPipe LLM Inference API: najprostszy sposób integracji modelu Gemma z aplikacjami wieloplatformowymi. Oferuje interfejs API wysokiego poziomu, który działa na urządzeniach z Androidem i iOS oraz w przeglądarce.

4. Wdrożenie w chmurze i w środowisku produkcyjnym

Usługi zarządzane do skalowania aplikacji dla tysięcy użytkowników lub uzyskiwania dostępu do ogromnej mocy obliczeniowej.

  • Vertex AI: w pełni zarządzana platforma AI od Google Cloud. Najlepsze rozwiązanie dla aplikacji korporacyjnych wymagających umów SLA i skalowania.
  • Google Cloud Kubernetes Engine (GKE): do zarządzania własnymi klastrami obsługującymi.
  • vLLM: silnik wnioskowania i obsługi o wysokiej przepustowości i wydajności pamięci, często używany we wdrożeniach w chmurze.

Upewnij się, że wybrana platforma obsługuje format modelu Gemma, który chcesz wdrożyć, np. wbudowany format Keras, Safetensors lub GGUF.

Wybierz wariant Gemy

Modele Gemma są dostępne w kilku wariantach i rozmiarach, w tym w wersjach podstawowych lub głównych oraz w bardziej wyspecjalizowanych wariantach, takich jak PaliGemmaDataGemma, a także w wielu wariantach stworzonych przez społeczność deweloperów AI na stronach takich jak KaggleHugging Face. Jeśli nie wiesz, od którego wariantu zacząć, wybierz najnowszy model Gemma core dostosowany do instrukcji (IT) z najmniejszą liczbą parametrów. Ten typ modelu Gemma ma niskie wymagania obliczeniowe i może odpowiadać na wiele promptów bez konieczności dodatkowego rozwoju.

Podczas wybierania wariantu modelu Gemma weź pod uwagę te czynniki:

  • Gemma Core i inne rodziny wariantów, takie jak PaliGemma czy CodeGemma: Zalecamy model Gemma (podstawowy). Warianty Gemmy inne niż wersja podstawowa mają taką samą architekturę jak model podstawowy i są trenowane pod kątem lepszego wykonywania określonych zadań. Jeśli Twoja aplikacja lub cele nie są zgodne ze specjalizacją konkretnego wariantu Gemmy, najlepiej zacząć od podstawowego modelu Gemmy.
  • Dostrojony do instrukcji (IT), wstępnie wytrenowany (PT), dostrojony (FT), mieszany (mix): zalecamy IT.
    • Dostrojone pod kątem instrukcji (IT) warianty Gemmy to modele, które zostały wytrenowane pod kątem odpowiadania na różne instrukcje lub prośby w języku naturalnym. Te warianty modeli są najlepszym punktem wyjścia, ponieważ mogą odpowiadać na prompty bez dalszego trenowania.
    • Wstępnie wytrenowane (PT) warianty Gemmy to modele, które zostały wytrenowane do wyciągania wniosków na podstawie języka lub innych danych, ale nie zostały wytrenowane do wykonywania instrukcji. Modele te wymagają dodatkowego trenowania lub dostrajania, aby skutecznie wykonywać zadania. Są przeznaczone dla badaczy i deweloperów, którzy chcą badać lub rozwijać możliwości modelu i jego architektury.
    • Dostrojone (FT) warianty Gemmy można uznać za warianty IT, ale są one zwykle trenowane pod kątem wykonywania określonego zadania lub osiągania dobrych wyników w określonym teście porównawczym generatywnej AI. Rodzina wariantów PaliGemma obejmuje kilka wariantów FT.
    • Warianty mieszane (mix) Gemma to wersje modeli PaliGemma, które zostały dostosowane do różnych instrukcji i nadają się do ogólnego użytku.
  • Parametry: Zalecamy najmniejszą dostępną liczbę. Ogólnie rzecz biorąc, im więcej parametrów ma model, tym większe są jego możliwości. Jednak uruchamianie większych modeli wymaga większych i bardziej złożonych zasobów obliczeniowych, co zwykle spowalnia rozwój aplikacji AI. Jeśli nie masz pewności, że mniejszy model Gemma nie spełni Twoich potrzeb, wybierz model z małą liczbą parametrów.
  • Poziomy kwantyzacji: zalecamy półprecyzyjną (16-bitową) kwantyzację, z wyjątkiem dostrajania. Kwantyzacja to złożony temat, który sprowadza się do określenia rozmiaru i precyzji danych, a w konsekwencji do tego, ile pamięci model generatywnej AI wykorzystuje do obliczeń i generowania odpowiedzi. Po wytrenowaniu modelu na danych o wysokiej precyzji, zwykle 32-bitowych danych zmiennoprzecinkowych, modele takie jak Gemma można zmodyfikować, aby używały danych o niższej precyzji, np. 16-, 8- lub 4-bitowych. Te skwantyzowane modele Gemma mogą nadal działać dobrze (w zależności od złożoności zadań), zużywając znacznie mniej zasobów obliczeniowych i pamięci. Narzędzia do dostrajania modeli skwantyzowanych są jednak ograniczone i mogą nie być dostępne w wybranym przez Ciebie środowisku do tworzenia AI. Zwykle musisz dostroić model taki jak Gemma z pełną precyzją, a następnie przeprowadzić kwantyzację uzyskanego modelu.

Listę najważniejszych modeli Gemma opublikowanych przez Google znajdziesz w artykule Pierwsze kroki z modelami Gemma na liście modeli Gemma.

Uruchamianie żądań generowania i wnioskowania

Po wybraniu platformy wykonawczej AI i wariantu modelu Gemma możesz zacząć go uruchamiać i prosić o generowanie treści lub wykonywanie zadań. Więcej informacji o tym, jak uruchomić model Gemma w konkretnym frameworku, znajdziesz w przewodnikach, do których linki znajdziesz w sekcji Wybieranie frameworka.

Formatowanie promptów

Wszystkie warianty modelu Gemma dostosowane do instrukcji mają określone wymagania dotyczące formatowania promptów. Niektóre z tych wymagań dotyczących formatowania są obsługiwane automatycznie przez platformę, której używasz do uruchamiania modeli Gemma, ale gdy wysyłasz dane promptu bezpośrednio do tokenizera, musisz dodać określone tagi. Wymagania dotyczące tagowania mogą się różnić w zależności od używanej wersji modelu Gemma. Informacje o formatowaniu promptów w przypadku wariantów Gemy i instrukcjach systemowych znajdziesz w tych przewodnikach: