Gemma 4 została udostępniona z możliwością wprowadzania tekstu, dźwięku i obrazów oraz długim oknem kontekstu (do 256 tys. tokenów). Więcej informacji

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Karta modelu Gemma 4

Baner Gemma 4

Hugging Face | GitHub | Blog o wprowadzeniu | Dokumentacja
Licencja: Apache 2.0 | Autorzy: Google DeepMind

Gemma to rodzina otwartych modeli stworzonych przez Google DeepMind. Modele Gemma 4 są multimodalne, co oznacza, że obsługują tekst i obrazy (w przypadku małych modeli także dźwięk) oraz generują tekstowe dane wyjściowe. Ta wersja zawiera modele o otwartych wagach w wariantach wstępnie wytrenowanych i dostosowanych do instrukcji. Gemma 4 ma okno kontekstu o wielkości do 256 tys. tokenów i obsługuje ponad 140 języków.

Gemma 4 ma architekturę Dense i Mixture-of-Experts (MoE), dzięki czemu dobrze sprawdza się w takich zadaniach jak generowanie tekstu, pisanie kodu i wyciąganie wniosków. Modele są dostępne w 4 różnych rozmiarach: E2B, E4B, 26B A4B i 31B. Dzięki różnym rozmiarom można je wdrażać w środowiskach obejmujących zarówno telefony z wyższej półki, jak i laptopy czy serwery, co ułatwia dostęp do najnowocześniejszej sztucznej inteligencji.

Gemma 4 wprowadza kluczowe ulepszenia funkcji i architektury:

Uzasadnienie – wszystkie modele z tej rodziny zostały zaprojektowane jako bardzo zaawansowane narzędzia do rozumowania z konfigurowalnymi trybami myślenia.
Rozszerzone funkcje multimodalne – przetwarzanie tekstu, obrazów o różnych współczynnikach proporcji i rozdzielczości (wszystkie modele), filmów i dźwięku (funkcja dostępna natywnie w modelach E2B i E4B).
Różnorodne i wydajne architektury – oferuje warianty Dense i MoE (ang. Mixture-of-Experts) o różnych rozmiarach, które można wdrażać na dużą skalę.
Zoptymalizowane pod kątem urządzeń – mniejsze modele są specjalnie zaprojektowane pod kątem wydajnego wykonywania zadań lokalnie na laptopach i urządzeniach mobilnych.
Większe okno kontekstu – małe modele mają okno kontekstu o wielkości 128 tys. tokenów, a średnie – 256 tys. tokenów.
Ulepszone funkcje kodowania i agentowe – osiąga znaczną poprawę w testach porównawczych kodowania oraz natywną obsługę wywoływania funkcji, co umożliwia tworzenie wysoce wydajnych autonomicznych agentów.
Natywna obsługa promptów systemowych – Gemma 4 wprowadza natywną obsługę roli system, co umożliwia prowadzenie bardziej uporządkowanych i łatwiejszych do kontrolowania rozmów.

Omówienie modeli

Modele Gemma 4 zostały zaprojektowane tak, aby zapewniać najwyższą wydajność w każdym rozmiarze, w przypadku scenariuszy wdrażania od urządzeń mobilnych i urządzeń brzegowych (E2B, E4B) po konsumenckie procesory graficzne i stacje robocze (26B A4B, 31B). Dobrze sprawdzają się w przypadku rozumowania, procesów agentowych, kodowania i rozumienia multimodalnego.

Modele wykorzystują hybrydowy mechanizm uwagi, który przeplata lokalną uwagę w przesuwanym oknie z pełną uwagą globalną, dzięki czemu ostatnia warstwa jest zawsze globalna. Ta hybrydowa architektura zapewnia szybkość przetwarzania i niewielkie wykorzystanie pamięci lekkiego modelu bez utraty głębokiej świadomości wymaganej w przypadku złożonych zadań z długim kontekstem. Aby zoptymalizować pamięć w przypadku długich kontekstów, warstwy globalne mają ujednolicone klucze i wartości oraz stosują proporcjonalne kodowanie pozycyjne RoPE (p-RoPE).

Modele gęste

Właściwość	E2B	E4B	31B Dense
Łączna liczba parametrów	2,3 mld parametrów (5,1 mld z osadzaniem)	4,5 mld skutecznych parametrów (8 mld z osadzaniem)	30,7 mld
Warstwy	35	42	60
Okno przesuwne	512 tokenów	512 tokenów	1024 tokeny
Długość kontekstu	128 tys. tokenów	128 tys. tokenów	256 tys. tokenów
Rozmiar słownika	262 tys.	262 tys.	262 tys.
Obsługiwane rodzaje	Tekst, obraz, dźwięk	Tekst, obraz, dźwięk	Tekst, obraz
Parametry kodera wizyjnego	~150 mln	~150 mln	~550 mln
Parametry kodera audio	~300 mln	~300 mln	Brak dźwięku

Litera „E” w nazwach E2B i E4B oznacza „skuteczne” parametry. Mniejsze modele wykorzystują osadzanie na poziomie warstwy (Per-Layer Embeddings, PLE), aby zmaksymalizować efektywność parametrów w przypadku wdrożeń na urządzeniach. Zamiast dodawać do modelu więcej warstw lub parametrów, PLE przypisuje każdej warstwie dekodera własne małe osadzanie dla każdego tokena. Te tabele osadzania są duże, ale służą tylko do szybkiego wyszukiwania, dlatego efektywna liczba parametrów jest znacznie mniejsza niż łączna.

Model typu Mixture-of-Experts (MoE)

Właściwość	26B A4B MoE
Łączna liczba parametrów	25,2 MLD
Aktywne parametry	3,8 mld
Warstwy	30
Okno przesuwne	1024 tokeny
Długość kontekstu	256 tys. tokenów
Rozmiar słownika	262 tys.
Liczba ekspertów	8 aktywnych / 128 wszystkich i 1 udostępniony
Obsługiwane rodzaje	Tekst, obraz
Parametry kodera wizyjnego	~550 mln

Litera „A” w nazwie 26B A4B oznacza „aktywne parametry” w przeciwieństwie do łącznej liczby parametrów, które zawiera model. Podczas wnioskowania model MoE aktywuje tylko podzbiór 4B parametrów, dzięki czemu działa znacznie szybciej, niż sugeruje jego łączna liczba 26B. Dzięki temu jest to doskonały wybór do szybkiego wnioskowania w porównaniu z modelem gęstym 31B, ponieważ działa prawie tak szybko jak model z 4 miliardami parametrów.

Wyniki testu porównawczego

Modele te zostały ocenione na podstawie dużej kolekcji różnych zbiorów danych i rodzajów danych, aby uwzględnić różne aspekty generowania tekstu. Wyniki oceny oznaczone w tabeli dotyczą modeli dostosowanych do instrukcji.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (bez myślenia)
MMLU Pro	85,2%	82,6%	69,4%	60,0%	67,6%
AIME 2026 no tools	89,2%	88,3%	42,5%	37,5%	20,8%
LiveCodeBench v6	80,0%	77,1%	52,0%	44,0%	29,1%
ELO Codeforces	2150	1718	940	633	110
GPQA Diamond	84,3%	82,3%	58,6%	43,4%	42,4%
Tau2 (średnia z 3 wartości)	76,9%	68,2%	42,2%	24,5%	16,2%
HLE no tools	19,5%	8,7%	-	-	-
HLE z wyszukiwaniem	26,5%	17,2%	-	-	-
BigBench Extra Hard	74,4%	64,8%	33,1%	21,9%	19,3%
MMMLU	88,4%	86,3%	76,6%	67,4%	70,7%
Widzenie
MMMU Pro	76,9%	73,8%	52,6%	44,2%	49,7%
OmniDocBench 1.5 (średnia odległość edycji, im mniejsza, tym lepiej)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85,6%	82,4%	59,5%	52,4%	46,0%
MedXPertQA MM	61,3%	58,1%	28,7%	23,5%	-
Dźwięk
CoVoST	-	-	35,54	33,47	-
FLEURS (im niższa wartość, tym lepiej)	-	-	0,08	0,09	-
Długi kontekst
MRCR v2 8 igieł 128 tys. (średnia)	66,4%	44,1%	25,4%	19,1%	13,5%

Podstawowe funkcje

Modele Gemma 4 obsługują szeroki zakres zadań związanych z tekstem, obrazem i dźwiękiem. Najważniejsze funkcje:

Myślenie – wbudowany tryb rozumowania, który umożliwia modelowi krok po kroku przemyśleć odpowiedź przed jej udzieleniem.
Długi kontekst – okna kontekstu o wielkości do 128 tys. tokenów (E2B/E4B) i 256 tys. tokenów (26B A4B/31B).
Rozpoznawanie obrazów – wykrywanie obiektów, analizowanie dokumentów i plików PDF, rozumienie ekranów i interfejsów, rozumienie wykresów, OCR (w tym wielojęzyczne), rozpoznawanie pisma odręcznego i wskazywanie. Obrazy mogą być przetwarzane w różnych formatach obrazu i rozdzielczościach.
Video Understanding – analiza filmu przez przetwarzanie sekwencji klatek.
Przeplatane dane wejściowe multimodalne – swobodne mieszanie tekstu i obrazów w dowolnej kolejności w ramach jednego prompta.
Wywoływanie funkcji – natywna obsługa strukturalnego korzystania z narzędzi, która umożliwia przepływy pracy oparte na agentach.
Kodowanie – generowanie, uzupełnianie i korygowanie kodu.
Wielojęzyczność – gotowa obsługa ponad 35 języków, wytrenowana na ponad 140 językach.
Audio (tylko E2B i E4B) – automatyczne rozpoznawanie mowy (ASR) i tłumaczenie mowy na tekst w wielu językach.

Sprawdzone metody

Aby zapewnić najlepszą skuteczność, używaj tych konfiguracji i sprawdzonych metod:

1. Parametry próbkowania

We wszystkich przypadkach użycia stosuj tę samą standardową konfigurację próbkowania:

temperature=1.0
top_p=0.95
top_k=64

2. Konfiguracja trybu myślenia

W porównaniu z Gemma 3 modele korzystają ze standardowych ról system, assistant i user. Aby prawidłowo zarządzać procesem myślowym, użyj tych tokenów sterujących:

Wywoływanie myślenia: myślenie jest włączane przez dodanie tokena <|think|> na początku prompta systemowego. Aby wyłączyć myślenie, usuń token.
Generowanie standardowe: gdy myślenie jest włączone, model podaje wewnętrzne rozumowanie, a następnie ostateczną odpowiedź w tej strukturze:<|channel>thought\n[Wewnętrzne rozumowanie]<channel|>
Wyłączone zachowanie związane z myśleniem: w przypadku wszystkich modeli z wyjątkiem wariantów E2B i E4B, jeśli myślenie jest wyłączone, model nadal będzie generować tagi, ale z pustym blokiem myśli: <|channel>thought\n<channel|>[Odpowiedź końcowa]

Pamiętaj, że wiele bibliotek, takich jak Transformers i llama.cpp, obsługuje złożoność szablonu czatu.

3. Rozmowy wieloetapowe

Brak treści związanych z procesem myślowym w historii: w przypadku rozmów wieloetapowych historyczne dane wyjściowe modelu powinny zawierać tylko ostateczną odpowiedź. Przemyślenia z poprzednich tur modelu nie mogą być dodawane przed rozpoczęciem kolejnej tury użytkownika.

4. Kolejność modalności

Aby uzyskać optymalną skuteczność w przypadku danych wejściowych multimodalnych, umieść obraz lub dźwięk przed tekstem w prompcie.

5. Zmienna rozdzielczość obrazu

Oprócz zmiennych proporcji obrazu model Gemma 4 obsługuje zmienną rozdzielczość obrazu dzięki konfigurowalnemu budżetowi tokenów wizualnych, który określa, ile tokenów jest używanych do reprezentowania obrazu. Wyższy budżet tokenów zachowuje więcej szczegółów wizualnych kosztem dodatkowej mocy obliczeniowej, a niższy budżet umożliwia szybsze wnioskowanie w przypadku zadań, które nie wymagają szczegółowego zrozumienia.

Obsługiwane budżety tokenów to: 70, 140, 280, 560 i 1120.
- W przypadku klasyfikacji, tworzenia napisów lub analizy filmów używaj niższych budżetów, gdy szybsze wnioskowanie i przetwarzanie wielu klatek są ważniejsze niż szczegółowe informacje.
- W przypadku zadań takich jak OCR, analizowanie dokumentów czy odczytywanie małego tekstu używaj większych budżetów.

6. Audio

Do przetwarzania dźwięku używaj tych struktur promptów:

Rozpoznawanie mowy (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Automatyczne tłumaczenie mowy (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Długość dźwięku i filmu

Wszystkie modele obsługują dane wejściowe w postaci obrazów i mogą przetwarzać filmy jako klatki, a modele E2B i E4B obsługują też dane wejściowe audio. Dźwięk może trwać maksymalnie 30 sekund. Film może trwać maksymalnie 60 sekund, przy założeniu, że obrazy są przetwarzane z częstotliwością 1 klatki na sekundę.

Dane modelu

Dane użyte do trenowania modelu i sposób ich przetwarzania.

Zbiór danych do trenowania

Nasz zbiór danych do wstępnego trenowania to duża, zróżnicowana kolekcja danych obejmująca szeroki zakres domen i rodzajów danych, w tym dokumenty internetowe, kod, obrazy i dźwięk. Data odcięcia to styczeń 2025 r. Oto kluczowe komponenty:

Dokumenty internetowe: różnorodna kolekcja tekstów internetowych zapewnia modelowi dostęp do szerokiej gamy stylów językowych, tematów i słownictwa. Zbiór danych treningowych zawiera treści w ponad 140 językach.
Kod: udostępnianie modelu kodu pomaga mu nauczyć się składni i wzorców języków programowania, co zwiększa jego zdolność do generowania kodu i rozumienia pytań związanych z kodem.
Matematyka: trenowanie na tekstach matematycznych pomaga modelowi uczyć się logicznego rozumowania, reprezentacji symbolicznej i odpowiadania na zapytania matematyczne.
Obrazy: szeroki zakres obrazów umożliwia modelowi wykonywanie zadań związanych z analizą obrazów i wyodrębnianiem danych wizualnych.

Połączenie tych różnorodnych źródeł danych ma kluczowe znaczenie dla trenowania zaawansowanego modelu multimodalnego, który może obsługiwać wiele różnych zadań i formatów danych.

Przetwarzanie wstępne danych

Oto główne metody oczyszczania i filtrowania danych zastosowane w przypadku danych treningowych:

Filtrowanie CSAM: na wielu etapach procesu przygotowywania danych stosowaliśmy rygorystyczne filtrowanie CSAM (materiałów przedstawiających wykorzystywanie seksualne dzieci), aby wykluczyć szkodliwe i nielegalne treści.
Filtrowanie danych wrażliwych: aby zapewnić bezpieczeństwo i niezawodność wstępnie wytrenowanych modeli Gemma, zastosowano automatyczne techniki filtrowania z zestawów treningowych określonych danych osobowych i innych danych wrażliwych.
Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.

Etyka i bezpieczeństwo

W miarę jak otwarte modele stają się kluczowym elementem infrastruktury przedsiębiorstw, pochodzenie i bezpieczeństwo mają ogromne znaczenie. Model Gemma 4 został opracowany przez Google DeepMind i przechodzi te same rygorystyczne oceny bezpieczeństwa co nasze zastrzeżone modele Gemini.

Podejście do oceny

Modele Gemma 4 zostały opracowane we współpracy z wewnętrznymi zespołami ds. bezpieczeństwa i odpowiedzialnej AI. Przeprowadziliśmy szereg ocen automatycznych i wykonywanych przez weryfikatorów, aby zwiększyć bezpieczeństwo modelu. Te oceny są zgodne z zasadami Google dotyczącymi AI oraz zasadami bezpieczeństwa, które mają zapobiegać generowaniu przez nasze modele generatywnej AI szkodliwych treści, w tym:

Treści związane z materiałami przedstawiającymi wykorzystywanie seksualne dzieci i wykorzystywaniem
treści niebezpieczne (np. promujące samobójstwo lub zawierające instrukcje dotyczące działań, które mogą wyrządzić szkody w świecie rzeczywistym);
Treści o charakterze jednoznacznie seksualnym
szerzenie nienawiści (np. dehumanizowanie członków grup chronionych);
Nękanie (np. zachęcanie do przemocy wobec innych osób)

Wyniki oceny

We wszystkich obszarach testów bezpieczeństwa odnotowaliśmy znaczne ulepszenia we wszystkich kategoriach bezpieczeństwa treści w porównaniu z poprzednimi modelami Gemma. Ogólnie modele Gemma 4 znacznie przewyższają modele Gemma 3 i 3n pod względem bezpieczeństwa, a jednocześnie utrzymują niski poziom nieuzasadnionych odmów. Wszystkie testy przeprowadzono bez filtrów bezpieczeństwa, aby ocenić możliwości i zachowania modelu. W przypadku modeli tekst na podstawie tekstu i obraz na podstawie tekstu we wszystkich rozmiarach model generował minimalną liczbę naruszeń zasad i wykazywał znaczną poprawę w porównaniu z poprzednimi modelami Gemma.

Użytkowanie i ograniczenia

Modele te mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Modele multimodalne (zdolne do przetwarzania obrazu, języka lub dźwięku) mają szerokie zastosowanie w różnych branżach i dziedzinach. Poniższa lista potencjalnych zastosowań nie jest kompletna. Celem tej listy jest dostarczenie informacji kontekstowych o możliwych przypadkach użycia, które twórcy modelu wzięli pod uwagę w ramach trenowania i rozwijania modelu.

Tworzenie treści i komunikacja
- Generowanie tekstu: te modele mogą być używane do generowania kreatywnych formatów tekstu, takich jak wiersze, scenariusze, kod, teksty marketingowe i wersje robocze e-maili.
- Czatboty i konwersacyjna AI: umożliwiają tworzenie interfejsów konwersacyjnych do obsługi klienta, wirtualnych asystentów lub aplikacji interaktywnych.
- Podsumowywanie tekstu: generuj zwięzłe podsumowania korpusu tekstów, prac badawczych lub raportów.
- Wyodrębnianie danych z obrazów: te modele mogą służyć do wyodrębniania, interpretowania i podsumowywania danych wizualnych na potrzeby komunikacji tekstowej.
- Przetwarzanie dźwięku i interakcje: mniejsze modele (E2B i E4B) mogą analizować i interpretować dane wejściowe audio, umożliwiając interakcje i transkrypcje głosowe.
Badania i edukacja
- Badania nad przetwarzaniem języka naturalnego (NLP) i modelami VLM: te modele mogą stanowić podstawę dla badaczy do eksperymentowania z technikami VLM i NLP, opracowywania algorytmów i przyczyniania się do rozwoju tej dziedziny.
- Narzędzia do nauki języków: wspierają interaktywną naukę języków, pomagają w korekcie gramatycznej i umożliwiają ćwiczenie pisania.
  - Eksploracja wiedzy: pomaganie badaczom w przeglądaniu dużych zbiorów tekstów przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.

Ograniczenia

Dane treningowe
- Jakość i różnorodność danych treningowych mają znaczący wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary tematyczne, z którymi model może sobie skutecznie radzić.
Kontekst i złożoność zadania
- Modele dobrze radzą sobie z zadaniami, które można sformułować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
- Na skuteczność modelu może wpływać ilość dostarczonego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, ale tylko do pewnego momentu).
Niejednoznaczność i niuanse językowe
- Język naturalny jest z natury złożony. Modele mogą mieć trudności z rozumieniem subtelnych niuansów, sarkazmu lub języka przenośnego.
Dokładność merytoryczna
- Modele generują odpowiedzi na podstawie informacji, których nauczyły się z zestawów danych treningowych, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia faktów.
Common Sense
- Modele opierają się na statystycznych wzorcach językowych. W niektórych sytuacjach mogą nie być w stanie zastosować zdrowego rozsądku.

Względy etyczne i ryzyko

Opracowywanie modeli wizualno-językowych (VLM) budzi wiele wątpliwości etycznych. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:

Uprzedzenia i obiektywność
- Modele VLM trenowane na dużych zbiorach danych tekstowych i obrazowych z prawdziwego świata mogą odzwierciedlać uprzedzenia społeczno-kulturowe zawarte w materiałach szkoleniowych. Modele Gemma 4 zostały poddane dokładnej analizie, wstępnemu przetwarzaniu danych wejściowych i ocenom po trenowaniu, co opisano na tej karcie, aby zmniejszyć ryzyko wystąpienia tych odchyleń.
Nieprawdziwe informacje i niewłaściwe wykorzystanie
- Modele VLM mogą być wykorzystywane do generowania tekstów, które są fałszywe, wprowadzają w błąd lub są szkodliwe.
- Wytyczne dotyczące odpowiedzialnego korzystania z modelu znajdziesz w zestawie narzędzi do odpowiedzialnego korzystania z generatywnej AI.
Przejrzystość i odpowiedzialność
- Ta karta modelu zawiera podsumowanie szczegółów dotyczących architektury modeli, ich możliwości, ograniczeń i procesów oceny.
- Odpowiedzialnie opracowany model otwarty daje możliwość dzielenia się innowacjami poprzez udostępnianie technologii VLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i środki zaradcze:

Generowanie szkodliwych treści: niezbędne są mechanizmy i wytyczne dotyczące bezpieczeństwa treści. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie zasad dotyczących konkretnych produktów i przypadków użycia aplikacji.
Nadużywanie w złośliwych celach: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w ograniczeniu złośliwego wykorzystywania dużych modeli językowych. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom zgłaszanie nadużyć.
Naruszenia prywatności: modele zostały wytrenowane na danych, które zostały odfiltrowane w celu usunięcia określonych informacji osobistych i innych danych wrażliwych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności za pomocą technik chroniących prywatność.
Utrwalanie uprzedzeń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i weryfikacji przez ludzi) oraz badanie technik usuwania uprzedzeń podczas trenowania i dostrajania modelu oraz w innych przypadkach użycia.

Zalety

W momencie wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność otwartych implementacji modelu widzenia i języka, które zostały zaprojektowane od podstaw z myślą o odpowiedzialnej AI w porównaniu z modelami o podobnej wielkości.