Informacje o modelu Gemma 4

Gemma to rodzina generatywnych modeli sztucznej inteligencji, których możesz używać do różnych zadań związanych z generowaniem treści, takich jak odpowiadanie na pytania, tworzenie podsumowań i wnioskowanie. Modele Gemma są udostępniane z otwartymi wagami i umożliwiają odpowiedzialne wykorzystanie komercyjne, dzięki czemu możesz je dostrajać i wdrażać we własnych projektach i aplikacjach.

Rodzina modeli Gemma 4 obejmuje 3 różne architektury dostosowane do konkretnych wymagań sprzętowych:

  • Małe rozmiary: modele z 2 i 4 miliardami efektywnych parametrów, które można wdrażać na urządzeniach mobilnych, w sieciach brzegowych i w przeglądarkach (np. Pixel, Chrome).
  • Gęste: wydajny model gęsty z 31 miliardami parametrów, który wypełnia lukę między wydajnością serwerową a wykonywaniem lokalnym.
  • Mixture-of-Experts: wysoce wydajny model MoE z 26 miliardami parametrów, który został zaprojektowany z myślą o wysokiej przepustowości i zaawansowanym wnioskowaniu.

Modele Gemma 4 możesz pobrać z Kaggle i Hugging Face. Więcej szczegółów technicznych na temat Gemmy 4 znajdziesz na karcie modelu. Wcześniejsze wersje podstawowych modeli Gemma są również dostępne do pobrania. Więcej informacji znajdziesz w artykule Poprzednie modele Gemma.

Pobierz z Kaggle Pobierz z Hugging Face

Uprawnienia

  • Rozumowanie: wszystkie modele z tej rodziny zostały zaprojektowane jako wysoce wydajne modele wnioskujące z konfigurowalnymi trybami myślenia.
  • Rozszerzone możliwości multimodalne: przetwarzanie tekstu, obrazów o zmiennym współczynniku proporcji i rozdzielczości (wszystkie modele), filmów i dźwięku (obsługiwane natywnie w modelach E2B i E4B).
  • Większe okno kontekstu: małe modele mają okno kontekstu o wielkości 128 tys. tokenów, a modele średnie – 256 tys. tokenów.
  • Ulepszone możliwości kodowania i agenta: znaczne ulepszenia w testach porównawczych kodowania oraz wbudowana obsługa wywoływania funkcji, co umożliwia tworzenie wysoce wydajnych agentów autonomicznych.
  • Natywna obsługa promptów systemowych: Gemma 4 wprowadza wbudowaną obsługę roli systemowej, co umożliwia prowadzenie bardziej uporządkowanych i kontrolowanych rozmów.
  • Przewidywanie wielu tokenów: wszystkie modele Gemma 4 (E2B, E4B, 31B i 26B A4B) zawierają dedykowany model roboczy do spekulatywnego dekodowania, co znacznie przyspiesza wnioskowanie bez utraty jakości.

Rozmiary parametrów i kwantyzacja

Modele Gemma 4 są dostępne w 4 rozmiarach parametrów: E2B, E4B, 31B i 26B A4B. Modele można używać z domyślną precyzją (16-bitową) lub z niższą precyzją za pomocą kwantyzacji. Różne rozmiary i precyzje to zestaw kompromisów w przypadku aplikacji AI. Modele z większą liczbą parametrów i bitów (wyższa precyzja) są na ogół bardziej wydajne, ale ich uruchomienie jest droższe pod względem cykli przetwarzania, kosztów pamięci i zużycia energii. Modele z mniejszą liczbą parametrów i bitów (niższa precyzja) mają mniejsze możliwości, ale mogą wystarczyć do wykonania zadania realizowanego z wykorzystaniem AI.

Wymagania dotyczące pamięci na potrzeby wnioskowania w Gemmie 4

W tabeli poniżej znajdziesz szczegółowe informacje o przybliżonych wymaganiach dotyczących pamięci GPU lub TPU na potrzeby wnioskowania w przypadku każdej wersji modelu Gemma 4.

Parametry BF16 (16-bitowy) SFP8 (8-bitowy) Q4_0 (4-bitowy)
Gemma 4 E2B 9,6 GB 4,6 GB 3,2 GB
Gemma 4 E4B 15 GB 7,5 GB 5 GB
Gemma 4 31B 58,3 GB 30,4 GB 17,4 GB
Gemma 4 26B A4B 48 GB 25 GB 15,6 GB

Tabela 1. Przybliżona ilość pamięci GPU lub TPU wymagana do wczytania modeli Gemma 4 na podstawie liczby parametrów i poziomu kwantyzacji.

Najważniejsze kwestie dotyczące planowania pamięci

  • Wydajna architektura (E2B i E4B): litera „E” oznacza „efektywne” parametry. Mniejsze modele zawierają osadzanie na warstwę (PLE), aby zmaksymalizować wydajność parametrów we wdrożeniach na urządzeniach. Zamiast dodawać do modelu więcej warstw, PLE zapewnia każdej warstwie dekodera własne małe osadzanie dla każdego tokena. Te tabele osadzania są duże, ale służą tylko do szybkiego wyszukiwania, dlatego łączna ilość pamięci wymagana do wczytania statycznych wag jest większa niż sugeruje to liczba efektywnych parametrów.
  • Architektura MoE (26B A4B): model 26B to mieszanka ekspertów. Podczas generowania aktywuje tylko 4 miliardy parametrów na token, ale wszystkie 26 miliardów parametrów musi zostać wczytanych do pamięci, aby zachować szybkie przekierowywanie i wnioskowanie. Dlatego jego podstawowe wymagania dotyczące pamięci są znacznie bliższe gęstemu modelowi 26B niż modelowi 4B.
  • Tylko wagi podstawowe: szacunki w poprzedniej tabeli uwzględniają tylko ilość pamięci wymaganą do wczytania statycznych wag modelu. Nie obejmują one dodatkowej pamięci VRAM potrzebnej do obsługi oprogramowania ani okna kontekstu.
  • Okno kontekstu (pamięć podręczna KV): zużycie pamięci będzie się dynamicznie zwiększać w zależności od łącznej liczby tokenów w prompcie i wygenerowanej odpowiedzi. Większe okna kontekstu wymagają znacznie więcej pamięci VRAM oprócz wag modelu podstawowego.
  • Obciążenie związane z dostrajaniem: wymagania dotyczące pamięci na potrzeby dostrajania modeli Gemma są znacznie wyższe niż w przypadku standardowego wnioskowania. Dokładne zużycie pamięci będzie w dużej mierze zależeć od platformy programistycznej, wielkości wsadu i tego, czy używasz dostrajania z pełną precyzją, czy metody dostrajania konkretnych parametrów (PEFT), takiej jak adaptacja o niskim rzędzie (LoRA).

Poprzednie modele Gemma

Możesz pracować z poprzednimi generacjami modeli Gemma, które są też dostępne w Kaggle i Hugging Face. Więcej szczegółów technicznych na temat poprzednich modeli Gemma znajdziesz na tych stronach kart modeli:

Chcesz zacząć tworzyć swoje rozwiązanie? Zacznij korzystać z modeli Gemma!