Informacje o modelu Gemma 4

Gemma to rodzina generatywnych modeli sztucznej inteligencji, których możesz używać do różnych zadań związanych z generowaniem treści, w tym do odpowiadania na pytania, tworzenia podsumowań i wnioskowania. Modele Gemma są udostępniane z otwartymi wagami i umożliwiają odpowiedzialne użycie komercyjne, dzięki czemu możesz je dostosowywać i wdrażać we własnych projektach i aplikacjach.

Rodzina modeli Gemma 4 obejmuje 3 różne architektury dostosowane do konkretnych wymagań sprzętowych:

  • Małe modele: modele parametrów o skuteczności 2B i 4B, które zostały opracowane z myślą o wdrażaniu na urządzeniach ultramobilnych, w środowiskach brzegowych i w przeglądarkach (np. na Pixelu i w Chrome).
  • Gęsty: wydajny model z 31 mld parametrów, który wypełnia lukę między wydajnością serwera a lokalnym wykonywaniem.
  • Mixture-of-Experts: wysoce wydajny model MoE o 26 miliardach parametrów, zaprojektowany z myślą o dużej przepustowości i zaawansowanym wnioskowaniu.

Modele Gemma 4 możesz pobrać z KaggleHugging Face. Więcej informacji technicznych o modelu Gemma 4 znajdziesz w karcie modelu. Wcześniejsze wersje modeli podstawowych Gemma są również dostępne do pobrania. Więcej informacji znajdziesz w artykule Poprzednie modele Gemma.

Pobierz w Kaggle Pobierz w Hugging Face

Uprawnienia

  • Uzasadnienie: wszystkie modele z tej rodziny zostały zaprojektowane jako bardzo zaawansowane narzędzia do rozumowania z konfigurowalnymi trybami myślenia.
  • Rozszerzona multimodalność: przetwarzanie tekstu, obrazów o zmiennym współczynniku proporcji i rozdzielczości (wszystkie modele), filmówdźwięku (funkcja dostępna natywnie w modelach E2B i E4B).
  • Większe okno kontekstu: małe modele mają okno kontekstu o wielkości 128 tys. tokenów, a średnie – 256 tys. tokenów.
  • Ulepszone funkcje kodowania i agentowe: osiąga znaczną poprawę w testach porównawczych kodowania oraz ma wbudowaną obsługę wywoływania funkcji, co umożliwia tworzenie wysoce wydajnych autonomicznych agentów.
  • Natywna obsługa promptów systemowych: Gemma 4 wprowadza wbudowaną obsługę roli systemowej, co umożliwia prowadzenie bardziej uporządkowanych i kontrolowanych rozmów.

Rozmiary parametrów i kwantyzacja

Modele Gemma 4 są dostępne w 4 rozmiarach parametrów: E2B, E4B, 31B i 26B A4B. Modele można stosować z domyślną precyzją (16-bitową) lub z mniejszą precyzją przy użyciu kwantyzacji. Różne rozmiary i precyzje reprezentują zestaw kompromisów dla aplikacji AI. Modele z większą liczbą parametrów i bitów (większą precyzją) są zwykle bardziej wydajne, ale droższe w użyciu pod względem cykli przetwarzania, kosztów pamięci i zużycia energii. Modele o mniejszej liczbie parametrów i bitów (mniejszej precyzji) mają mniejsze możliwości, ale mogą być wystarczające do wykonania zadania realizowanego z wykorzystaniem AI.

Wymagania dotyczące pamięci wnioskowania w przypadku modelu Gemma 4

W tabeli poniżej podano przybliżone wymagania dotyczące pamięci GPU lub TPU w przypadku przeprowadzania wnioskowania z użyciem poszczególnych wersji modelu Gemma 4.

Parametry BF16 (16-bitowy) SFP8 (8-bitowy) Q4_0 (4-bitowy)
Gemma 4 E2B 9,6 GB 4,6 GB 3,2 GB
Gemma 4 E4B 15 GB 7,5 GB 5 GB
Gemma 4 31B 58,3 GB 30,4 GB 17,4 GB
Gemma 4 26B A4B 48 GB 25 GB 15,6 GB

Tabela 1. Przybliżona ilość pamięci GPU lub TPU wymagana do wczytania modeli Gemma 4 na podstawie liczby parametrów i poziomu kwantyzacji.

Najważniejsze kwestie dotyczące planowania pamięci

  • Wydajna architektura (E2B i E4B): litera „E” oznacza „efektywne” parametry. Mniejsze modele wykorzystują osadzanie na poziomie warstwy (PLE), aby zmaksymalizować efektywność parametrów we wdrożeniach na urządzeniach. Zamiast dodawać do modelu więcej warstw, PLE przypisuje do każdej warstwy dekodera własne małe osadzanie dla każdego tokena. Te tabele osadzania są duże, ale służą tylko do szybkiego wyszukiwania, dlatego całkowita ilość pamięci wymagana do wczytania statycznych wag jest większa niż sugeruje to efektywna liczba parametrów.
  • Architektura MoE (26B A4B): model 26B to model typu Mixture of Experts. Podczas generowania aktywuje tylko 4 miliardy parametrów na token, ale wszystkie 26 miliardów parametrów musi być załadowanych do pamięci, aby utrzymać szybkie przekierowywanie i wnioskowanie. Dlatego jego podstawowe wymagania dotyczące pamięci są znacznie bliższe wymaganiom gęstego modelu 26B niż modelu 4B.
  • Tylko wagi podstawowe: szacunki w tabeli powyżej uwzględniają tylko pamięć potrzebną do wczytania statycznych wag modelu. Nie uwzględniają one dodatkowej pamięci VRAM potrzebnej do obsługi oprogramowania ani okna kontekstowego.
  • Okno kontekstowe (pamięć podręczna KV): zużycie pamięci będzie się dynamicznie zwiększać w zależności od łącznej liczby tokenów w prompcie i wygenerowanej odpowiedzi. Większe okna kontekstu wymagają znacznie więcej pamięci VRAM niż wagi modelu podstawowego.
  • Obciążenie związane z dostrajaniem: wymagania dotyczące pamięci w przypadku dostrajania modeli Gemma są znacznie wyższe niż w przypadku standardowego wnioskowania. Dokładny rozmiar modelu będzie w dużej mierze zależeć od platformy programistycznej, wielkości wsadu i tego, czy używasz dostrajania z pełną precyzją, czy metody dostrajania konkretnych parametrów (PEFT), takiej jak adaptacja o niskim rzędzie (LoRA).

Poprzednie modele Gemma

Możesz pracować z poprzednimi generacjami modeli Gemma, które są też dostępne na platformach KaggleHugging Face. Więcej informacji technicznych o poprzednich modelach Gemma znajdziesz na tych stronach kart modeli:

Chcesz zacząć tworzyć swoje rozwiązanie? Zacznij korzystać z modeli Gemma.