Gemma 4 została udostępniona z możliwością wprowadzania tekstu, dźwięku i obrazów oraz długim oknem kontekstu (do 256 tys. tokenów). Więcej informacji

Google używa technologii AI do tłumaczenia treści na Twój preferowany język. Tłumaczenia wygenerowane przez AI mogą zawierać błędy.

Informacje o modelu Gemma 4

Gemma to rodzina generatywnych modeli sztucznej inteligencji, których możesz używać do różnych zadań związanych z generowaniem treści, w tym do odpowiadania na pytania, tworzenia podsumowań i wnioskowania. Modele Gemma są udostępniane z otwartymi wagami i umożliwiają odpowiedzialne użycie komercyjne, dzięki czemu możesz je dostosowywać i wdrażać we własnych projektach i aplikacjach.

Rodzina modeli Gemma 4 obejmuje 4 różne architektury dostosowane do konkretnych wymagań sprzętowych:

Małe modele: modele z 2 mld i 4 mld parametrów, które można wdrażać na urządzeniach ultramobilnych, urządzeniach brzegowych i w przeglądarkach (np. na Pixelu i w Chrome).
Gęsty: wydajny model z 31 miliardami parametrów, który wypełnia lukę między wydajnością serwera a lokalnym wykonywaniem zadań.
Mixture-of-Experts: bardzo wydajny model MoE o 26 miliardach parametrów, zaprojektowany z myślą o dużej przepustowości i zaawansowanym wnioskowaniu.
Ujednolicony: bezpłatny model enkodera z 12 mld parametrów do zadań multimodalnych, w którym enkodery wizualne i audio zostały zastąpione bezpośrednimi projekcjami liniowymi danych wejściowych.

Modele Gemma 4 możesz pobrać z Kaggle i Hugging Face. Więcej szczegółów technicznych na temat Gemy 4 znajdziesz w karcie modelu i raporcie technicznym. Do pobrania są też wcześniejsze wersje modeli podstawowych Gemma. Więcej informacji znajdziesz w artykule Poprzednie modele Gemma.

Pobierz w Kaggle Pobierz w Hugging Face

Uprawnienia

Uzasadnienie: wszystkie modele z tej rodziny zostały zaprojektowane jako bardzo zaawansowane narzędzia do rozumowania z konfigurowalnymi trybami myślenia.
Rozszerzone możliwości multimodalne: przetwarzanie tekstu, obrazów o zmiennym współczynniku proporcji i rozdzielczości (wszystkie modele), filmów i dźwięku (funkcja dostępna natywnie w modelach E2B, E4B i 12B).
Większe okno kontekstu: małe modele mają okno kontekstu o wielkości 128 tys. tokenów, a średnie – 256 tys. tokenów.
Ulepszone funkcje kodowania i agentowe: osiąga znaczną poprawę w testach porównawczych kodowania oraz ma wbudowaną obsługę wywoływania funkcji, co umożliwia tworzenie wysoce wydajnych autonomicznych agentów.
Natywna obsługa promptów systemowych: Gemma 4 wprowadza wbudowaną obsługę roli systemowej, co umożliwia prowadzenie bardziej uporządkowanych i kontrolowanych rozmów.
Prognozowanie wielu tokenów: wszystkie modele Gemma 4 (E2B, E4B, 12B, 31B i 26B A4B) zawierają dedykowany model roboczy do spekulacyjnego dekodowania, co umożliwia znacznie szybsze wnioskowanie bez utraty jakości.

Rozmiary parametrów i kwantyzacja

Modele Gemma 4 są dostępne w 5 rozmiarach parametrów: E2B, E4B, 12B, 31B i 26B A4B. Modele można stosować z domyślną precyzją (16-bitową) lub z mniejszą precyzją przy użyciu kwantyzacji. Różne rozmiary i poziomy precyzji to zestaw kompromisów, które musisz uwzględnić w swojej aplikacji AI. Modele z większą liczbą parametrów i bitów (większą precyzją) są zwykle bardziej wydajne, ale droższe w użyciu pod względem cykli przetwarzania, kosztów pamięci i zużycia energii. Modele o mniejszej liczbie parametrów i bitów (mniejszej precyzji) mają mniejsze możliwości, ale mogą być wystarczające do wykonania zadania związanego ze sztuczną inteligencją.

Wymagania dotyczące pamięci na potrzeby wnioskowania w przypadku modelu Gemma 4

W tabeli poniżej podano przybliżone wymagania dotyczące pamięci GPU lub TPU w przypadku przeprowadzania wnioskowania z użyciem poszczególnych wersji modelu Gemma 4.

Parametry	BF16 (16-bitowy)	SFP8 (8-bitowy)	Q4_0 (4-bit)	Urządzenia mobilne	Urządzenia mobilne (tylko tekst)
Gemma 4 E2B	11,4 GB	5,7 GB	2,9 GB	1,1 GB	0,84 GB
Gemma 4 E4B	17,9 GB	8,9 GB	4,5 GB	2,5 GB	2,2 GB
Gemma 4 12B	26,7 GB	13,4 GB	6,7 GB	-	-
Gemma 4 26B A4B	57,7 GB	28,8 GB	14,4 GB	-	-
Gemma 4 31B	69,9 GB	34,9 GB	17,5 GB	-	-

Tabela 1. Przybliżona ilość pamięci GPU lub TPU wymagana do załadowania modeli Gemma 4 na podstawie liczby parametrów, poziomu kwantyzacji i 20% narzutu na załadowanie dodatkowych elementów. Wersje mobilne korzystają z LiteRT-LM.

Najważniejsze kwestie dotyczące planowania pamięci

Wydajna architektura (E2B i E4B): litera „E” oznacza „efektywne” parametry. Mniejsze modele wykorzystują osadzanie na poziomie warstwy (Per-Layer Embeddings, PLE), aby zmaksymalizować efektywność parametrów we wdrożeniach na urządzeniach. Zamiast dodawać do modelu więcej warstw, PLE przypisuje do każdej warstwy dekodera małe osadzanie dla każdego tokena. Te tabele z osadzaniem są duże, ale służą tylko do szybkiego wyszukiwania, dlatego całkowita ilość pamięci wymagana do wczytania statycznych wag jest większa niż sugeruje to efektywna liczba parametrów.
Architektura MoE (26B A4B): model 26B to mieszanka ekspertów. Podczas generowania aktywuje tylko 4 miliardy parametrów na token, ale wszystkie 26 miliardów parametrów musi być załadowanych do pamięci, aby utrzymać szybkie przekierowywanie i wnioskowanie. Dlatego jego podstawowe wymagania dotyczące pamięci są znacznie bliższe wymaganiom modelu 26B niż modelu 4B.
Tylko wagi podstawowe: szacunki w tabeli powyżej uwzględniają tylko pamięć potrzebną do wczytania statycznych wag modelu. Nie uwzględniają one dodatkowej pamięci VRAM potrzebnej do obsługi oprogramowania ani okna kontekstowego.
Okno kontekstowe (pamięć podręczna KV): zużycie pamięci będzie się dynamicznie zwiększać w zależności od łącznej liczby tokenów w prompcie i wygenerowanej odpowiedzi. Większe okna kontekstu wymagają znacznie więcej pamięci VRAM niż wagi modelu podstawowego.
Obciążenie związane z dostrajaniem: wymagania dotyczące pamięci w przypadku dostrajania modeli Gemma są znacznie wyższe niż w przypadku standardowego wnioskowania. Dokładny rozmiar modelu będzie w dużej mierze zależeć od platformy programistycznej, rozmiaru partii i tego, czy używasz dostrajania z pełną precyzją, czy metody dostrajania opartego na ograniczonej liczbie parametrów (PEFT), takiej jak adaptacja niskiego rzędu (LoRA).

Trenowanie z uwzględnieniem kwantyzacji (QAT)

W przypadku wdrożeń wymagających maksymalnej wydajności przy minimalnym kompromisie w zakresie jakości Gemma oferuje oficjalne modele Quantization-Aware Training (QAT).

W przeciwieństwie do standardowej kwantyzacji po trenowaniu (PTQ), która kompresuje w pełni wytrenowany model i może prowadzić do pogorszenia jakości, QAT integruje symulację kwantyzacji z procesem trenowania. Dzięki temu model może nauczyć się kompensować utratę precyzji, co pozwala uzyskać mniejsze modele, które działają niemal identycznie jak ich wersje o wysokiej precyzji.

Tabela szybkiego routingu

Silnik wdrożenia docelowego	Sufiks pobierania	Główny przypadek użycia
llama.cpp / LM Studio (lokalnie)	`{model-name}-qat-q4_0-gguf`	Lokalne wdrożenie bez konfiguracji na procesorze, Apple Silicon lub konsumenckich procesorach graficznych.
vLLM / SGLang	SERWER: `{model-name}-qat-w4a16-ct` KOMÓRKA: `{model-name}-qat-mobile-ct`	Wnioskowanie o wysokiej przepustowości z użyciem 4-bitowych wag i 16-bitowych aktywacji.
Dekodowanie spekulatywne	MODEL: `{model-name}-qat-q4_0-unquantized` DRAFTER: `{model-name}-qat-q4_0-unquantized-assistant`	Uruchamianie modelu podstawowego wraz z odpowiadającym mu modelem roboczym MTP, aby znacznie przyspieszyć generowanie tokenów. Model musi być skwantyzowany.
Inne formaty	`{model-name}-qat-q4_0-unquantized`	Niekwantyzowane wagi do konwertowania na inne formaty (np. MLX)
Wdrożenie na urządzenia mobilne (przekształtniki)	`{model-name}-qat-mobile-transformers`	Wagi krawędzi zoptymalizowane pod kątem zastosowań mobilnych. Służą one jako punkt odniesienia dla innych formatów.

Oficjalne kolekcje QAT w Hugging Face

collections/google/gemma-4-qat-q4-0
- Punkty kontrolne QAT bez kwantyzacji (-unquantized / -assistant): wagi o połowie precyzji wyodrębnione bezpośrednio z potoku QAT. Są one idealne do niestandardowej kompilacji podrzędnej, badań lub uruchamiania spekulacyjnego dekodowania przy użyciu modeli wersji roboczych asystenta. Dostępne w przypadku modeli Gemma 4 E2B, E4B, 12B, 26B A4B i 31B.
- GGUF (-gguf): punkty kontrolne dostępne do natychmiastowego wdrożenia, zapewniające zgodność w całym lokalnym ekosystemie LLM. Dostępne w przypadku modeli Gemma 4 E2B, E4B, 12B, 26B A4B i 31B.
- Skompresowane tensory (-w4a16-ct): serializowane natywnie w standardzie compressed-tensors w celu zoptymalizowanego, równoczesnego obsługiwania w chmurze. Dostępne w przypadku modeli Gemma 4 E2B, E4B, 12B i 31B.
collections/google/gemma-4-qat-mobile
- Zoptymalizowany pod kątem urządzeń mobilnych (-mobile-transformers / -mobile-ct): oparty na niestandardowym schemacie wNa8o8 zaprojektowanym specjalnie z myślą o ograniczeniach sprzętowych urządzeń mobilnych. Wykorzystuje ukierunkowane 2-bitowe warstwy dekodowania, zoptymalizowane pamięci podręczne KV i statyczne aktywacje, aby zmaksymalizować oszczędność pamięci RAM na urządzeniu bez obciążania procesorów brzegowych. Dostępne w przypadku modeli Gemma 4 E2B i E4B.

Wszystkie oficjalne punkty kontrolne Gemma 4 QAT są też dostępne bezpośrednio na platformie Kaggle.

Poprzednie modele Gemma

Możesz pracować z poprzednimi generacjami modeli Gemma, które są też dostępne na platformach Kaggle i Hugging Face. Więcej informacji technicznych o poprzednich modelach Gemma znajdziesz na tych stronach:

Gemma 3 Karta modelu
Gemma 2 karta modelu
Gemma 1 karta modelu

Chcesz zacząć tworzyć swoje rozwiązanie? Zacznij korzystać z modeli Gemma.