Informacje o modelu Gemma 4

Gemma to rodzina generatywnych modeli sztucznej inteligencji, których możesz używać do różnych zadań związanych z generowaniem treści, w tym do odpowiadania na pytania, tworzenia podsumowań i wnioskowania. Modele Gemma są udostępniane z otwartymi wagami i umożliwiają odpowiedzialne użycie komercyjne, dzięki czemu możesz je dostosowywać i wdrażać we własnych projektach i aplikacjach.

Rodzina modeli Gemma 4 obejmuje 4 różne architektury dostosowane do konkretnych wymagań sprzętowych:

  • Małe modele: modele z 2 mld i 4 mld parametrów, które są przeznaczone do wdrażania na urządzeniach ultramobilnych, w środowiskach brzegowych i w przeglądarkach (np. na Pixelu i w Chrome).
  • Gęsty: wydajny model z 31 miliardami parametrów, który wypełnia lukę między wydajnością serwera a lokalnym wykonywaniem zadań.
  • Mixture-of-Experts: bardzo wydajny model MoE o 26 miliardach parametrów, zaprojektowany z myślą o dużej przepustowości i zaawansowanym wnioskowaniu.
  • Ujednolicony: bezpłatny model enkodera z 12 mld parametrów do zadań multimodalnych, w którym enkodery wizualne i audio zostały zastąpione bezpośrednimi projekcjami liniowymi danych wejściowych.

Modele Gemma 4 możesz pobrać z KaggleHugging Face. Więcej informacji technicznych o modelu Gemma 4 znajdziesz w karcie modelu. Do pobrania są też wcześniejsze wersje modeli podstawowych Gemma. Więcej informacji znajdziesz w artykule Poprzednie modele Gemma.

Pobierz w Kaggle Pobierz w Hugging Face

Uprawnienia

  • Uzasadnienie: wszystkie modele z tej rodziny zostały zaprojektowane jako bardzo zaawansowane narzędzia do rozumowania z konfigurowalnymi trybami myślenia.
  • Rozszerzone możliwości multimodalne: przetwarzanie tekstu, obrazów o zmiennym współczynniku proporcji i rozdzielczości (wszystkie modele), filmówdźwięku (funkcja dostępna natywnie w modelach E2B, E4B i 12B).
  • Większe okno kontekstu: małe modele mają okno kontekstu o wielkości 128 tys. tokenów, a średnie – 256 tys. tokenów.
  • Ulepszone możliwości kodowania i działania agentów: osiąga znaczące postępy w testach porównawczych kodowania oraz ma wbudowaną obsługę wywoływania funkcji, co umożliwia tworzenie wysoce wydajnych autonomicznych agentów.
  • Natywna obsługa promptów systemowych: Gemma 4 wprowadza wbudowaną obsługę roli systemowej, co umożliwia prowadzenie bardziej uporządkowanych i kontrolowanych rozmów.
  • Prognozowanie wielu tokenów: wszystkie modele Gemma 4 (E2B, E4B, 12B, 31B i 26B A4B) zawierają dedykowany model roboczy do spekulacyjnego dekodowania, co umożliwia znacznie szybsze wnioskowanie bez utraty jakości.

Rozmiary parametrów i kwantyzacja

Modele Gemma 4 są dostępne w 5 rozmiarach parametrów: E2B, E4B, 12B, 31B i 26B A4B. Można ich używać z domyślną precyzją (16-bitową) lub z mniejszą precyzją przy użyciu kwantyzacji. Różne rozmiary i precyzje stanowią zestaw kompromisów dla Twojej aplikacji AI. Modele z większą liczbą parametrów i bitów (większa precyzja) są zwykle bardziej wydajne, ale droższe w użyciu pod względem cykli przetwarzania, kosztów pamięci i zużycia energii. Modele z mniejszą liczbą parametrów i bitów (mniejsza precyzja) mają mniejsze możliwości, ale mogą być wystarczające do wykonania Twojego zadania realizowanego z wykorzystaniem AI.

Wymagania dotyczące pamięci w przypadku wnioskowania z użyciem modelu Gemma 4

W tabeli poniżej podano przybliżone wymagania dotyczące pamięci GPU lub TPU w przypadku przeprowadzania wnioskowania z użyciem poszczególnych wersji modelu Gemma 4 o różnych rozmiarach.

Parametry BF16 (16-bitowy) SFP8 (8-bitowy) Q4_0 (4-bit) Urządzenia mobilne Urządzenia mobilne (tylko tekst)
Gemma 4 E2B 11,4 GB 5,7 GB 2,9 GB 1,1 GB 0,84 GB
Gemma 4 E4B 17,9 GB 8,9 GB 4,5 GB 2,5 GB 2,2 GB
Gemma 4 12B 26,7 GB 13,4 GB 6,7 GB - -
Gemma 4 26B A4B 57,7 GB 28,8 GB 14,4 GB - -
Gemma 4 31B 69,9 GB 34,9 GB 17,5 GB - -

Tabela 1. Przybliżona ilość pamięci GPU lub TPU wymagana do załadowania modeli Gemma 4 na podstawie liczby parametrów, poziomu kwantyzacji i 20% narzutu na załadowanie dodatkowych elementów. Wersje mobilne korzystają z LiteRT-LM.

Najważniejsze kwestie dotyczące planowania pamięci

  • Wydajna architektura (E2B i E4B): litera „E” oznacza „skuteczne” parametry. Mniejsze modele zawierają osadzanie na poziomie warstwy (PLE), aby zmaksymalizować wydajność parametrów w przypadku wdrożeń na urządzeniach. Zamiast dodawać do modelu więcej warstw, PLE zapewnia każdej warstwie dekodera własne małe osadzanie dla każdego tokena. Te tabele osadzania są duże, ale służą tylko do szybkiego wyszukiwania, dlatego całkowita pamięć wymagana do załadowania statycznych wag jest większa niż sugeruje to efektywna liczba parametrów.
  • Architektura MoE (26B A4B): model 26B to model typu mieszanka ekspertów. Podczas generowania aktywuje tylko 4 miliardy parametrów na token, ale wszystkie 26 miliardów parametrów musi być załadowanych do pamięci, aby utrzymać szybkie przekierowywanie i wnioskowanie. Dlatego jego podstawowe wymagania dotyczące pamięci są znacznie bliższe wymaganiom gęstego modelu 26B niż modelu 4B.
  • Tylko wagi podstawowe: szacunki w tabeli powyżej uwzględniają tylko pamięć wymaganą do wczytania statycznych wag modelu. Nie uwzględniają one dodatkowej pamięci VRAM potrzebnej do obsługi oprogramowania lub okna kontekstowego.
  • Okno kontekstu (pamięć podręczna KV): zużycie pamięci będzie dynamicznie wzrastać w zależności od łącznej liczby tokenów w prompcie i wygenerowanej odpowiedzi. Większe okna kontekstu wymagają znacznie więcej pamięci VRAM niż wagi modelu podstawowego.
  • Obciążenie związane z dostrajaniem: wymagania dotyczące pamięci w przypadku dostrajania modeli Gemma są znacznie wyższe niż w przypadku standardowego wnioskowania. Dokładny rozmiar modelu będzie w dużej mierze zależeć od platformy programistycznej, wielkości wsadu i tego, czy używasz dostrajania z pełną precyzją, czy metody dostrajania konkretnych parametrów (PEFT), takiej jak adaptacja o niskim rzędzie (LoRA).

Trenowanie z uwzględnieniem kwantyzacji (QAT)

W przypadku wdrożeń wymagających maksymalnej wydajności przy minimalnym kompromisie w zakresie jakości Gemma oferuje oficjalne modele Quantization-Aware Training (QAT).

W przeciwieństwie do standardowej kwantyzacji po trenowaniu (PTQ), która kompresuje w pełni wytrenowany model i może prowadzić do pogorszenia jakości, QAT integruje symulację kwantyzacji z samym procesem trenowania. Dzięki temu model może nauczyć się kompensować utratę precyzji, co skutkuje mniejszymi modelami, które działają niemal identycznie jak ich punkty odniesienia o wysokiej precyzji.

Tabela szybkiego routingu

Silnik wdrożenia docelowego Sufiks pobierania Główny przypadek użycia
llama.cpp / LM Studio (lokalnie) {model-name}-qat-q4_0-gguf Lokalne wdrożenie bez konfiguracji na procesorze, Apple Silicon lub konsumenckich procesorach graficznych.
vLLM / SGLang SERWER: {model-name}-qat-w4a16-ct
KOMÓRKA: {model-name}-qat-mobile-ct
Wnioskowanie o wysokiej przepustowości z użyciem 4-bitowych wag i 16-bitowych aktywacji.
Dekodowanie spekulatywne MODEL: {model-name}-qat-q4_0-unquantized
DRAFTER: {model-name}-qat-q4_0-unquantized-assistant
Uruchamianie modelu podstawowego wraz z odpowiadającym mu modelem roboczym MTP w celu znacznego przyspieszenia generowania tokenów. Model musi być skwantyzowany.
Inne formaty {model-name}-qat-q4_0-unquantized Niekwantyzowane wagi do konwertowania na inne formaty (np. MLX)
Wdrożenie na urządzenia mobilne (modele Transformer) {model-name}-qat-mobile-transformers Wagi krawędzi zoptymalizowane pod kątem zastosowań mobilnych. Służą one jako punkt odniesienia dla innych formatów.

Oficjalne kolekcje QAT w Hugging Face

  • collections/google/gemma-4-qat-q4-0
    • Punkty kontrolne QAT bez kwantyzacji (-unquantized / -assistant): wagi o połowie precyzji wyodrębnione bezpośrednio z potoku QAT. Są one idealne do niestandardowej kompilacji podrzędnej, badań lub uruchamiania spekulacyjnego dekodowania przy użyciu modeli wersji roboczych asystenta. Dostępne w przypadku modeli Gemma 4 E2B, E4B, 12B, 26B A4B i 31B.
    • GGUF (-gguf): punkty kontrolne dostępne do natychmiastowego wdrożenia, zapewniające zgodność w całym ekosystemie lokalnych modeli LLM. Dostępne w przypadku modeli Gemma 4 E2B, E4B, 12B, 26B A4B i 31B.
    • Skompresowane tensory (-w4a16-ct): serializowane natywnie w standardzie compressed-tensors w celu zoptymalizowanego, wysoce współbieżnego udostępniania w chmurze. Dostępne w przypadku modeli Gemma 4 E2B, E4B, 12B i 31B.
  • collections/google/gemma-4-qat-mobile
    • Zoptymalizowany pod kątem urządzeń mobilnych (-mobile-transformers / -mobile-ct): oparty na niestandardowym schemacie wNa8o8 zaprojektowanym specjalnie pod kątem ograniczeń sprzętowych urządzeń mobilnych. Wykorzystuje ukierunkowane 2-bitowe warstwy dekodowania, zoptymalizowane pamięci podręczne KV i statyczne aktywacje, aby zmaksymalizować oszczędność pamięci RAM na urządzeniu bez obciążania procesorów brzegowych. Dostępne w przypadku modeli Gemma 4 E2B i E4B.

Wszystkie oficjalne punkty kontrolne Gemma 4 QAT są też dostępne bezpośrednio na platformie Kaggle.

Poprzednie modele Gemma

Możesz pracować z poprzednimi generacjami modeli Gemma, które są też dostępne na platformach KaggleHugging Face. Więcej informacji technicznych o poprzednich modelach Gemma znajdziesz na tych stronach kart modeli:

Chcesz zacząć tworzyć swoje rozwiązanie? Zacznij korzystać z modeli Gemma.