Karta modelu Gemma 3

Strona modelu: Gemma

Materiały i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google DeepMind

Informacje o modelu

Ogólny opis i krótka definicja danych wejściowych i wyjściowych.

Opis

Gemma to rodzina lekkich, najnowocześniejszych otwartych modeli Google, która powstała na podstawie tych samych badań i technologii, co modele Gemini. Modele Gemma 3 są multimodalne, obsługują dane wejściowe w postaci tekstu i obrazów oraz generują dane wyjściowe w postaci tekstu. Mają otwarte wagi zarówno dla wariantów wytrenowanych wstępnie, jak i wariantów dostosowanych do instrukcji. Gemma 3 ma duże okno kontekstu o rozdzielczości 128 K, obsługę ponad 140 języków i jest dostępna w większej liczbie rozmiarów niż poprzednie wersje. Modele Gemma 3 dobrze sprawdzają się w różnych zadaniach związanych z generowaniem tekstu i rozumieniem obrazów, w tym w odpowiedziach na pytania, podsumowaniach i rozumowaniu. Ich stosunkowo niewielki rozmiar umożliwia wdrażanie ich w środowiskach z ograniczonymi zasobami, takich jak laptopy, komputery stacjonarne czy własna infrastruktura chmurowa. Dzięki temu każdy może korzystać z najnowocześniejszych modeli AI i wspierać innowacje.

Wejścia i wyjścia

  • Dane wejściowe:

    • ciąg tekstowy, np. pytanie, prompt lub dokument, który ma zostać podsumowany;
    • obrazy znormalizowane do rozdzielczości 896 x 896 i zakodowane w 256 tokenów każdy;
    • Łączny kontekst wejściowy o długości 128 tys. tokenów w przypadku rozmiarów 4 PB, 12 PB i 27 PB oraz 32 tys. tokenów w przypadku rozmiaru 1 PB.
  • Dane wyjściowe:

    • wygenerowany tekst jako odpowiedź na dane wejściowe, np. odpowiedź na pytanie, analiza treści obrazu lub podsumowanie dokumentu;
    • Całkowity kontekst wyjściowy do 128 tys. tokenów w przypadku rozmiarów 4 B, 12 B i 27 B oraz 32 tys. tokenów w przypadku rozmiaru 1 B na żądanie (z odejmowaniem tokenów danych wejściowych żądania).

Cytat

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

Dane modelu

dane użyte do trenowania modelu i sposób ich przetwarzania.

Zbiór danych treningowych

Modele te zostały wytrenowane na zbiorze danych tekstowych pochodzących z różnych źródeł. Model 27B został wytrenowany na podstawie 14 bilionów tokenów, model 12B – na podstawie 12 bilionów tokenów, model 4B – na podstawie 4 bilionów tokenów, a model 1B – na podstawie 2 bilionów tokenów. Data odcięcia wiedzy dla danych treningowych to sierpień 2024 r. Oto najważniejsze elementy:

  • Dokumenty internetowe: zróżnicowana kolekcja tekstów internetowych zapewnia modelowi dostęp do szerokiego zakresu stylów językowych, tematów i słownictwa. Zbiór danych do treningu zawiera treści w ponad 140 językach.
  • Kod: model ma dostęp do kodu, co pomaga mu uczyć się składni i wzorców języków programowania, co z kolei poprawia jego zdolność do generowania kodu i rozumienia pytań związanych z kodem.
  • Matematyka: trenowanie na tekście matematycznym pomaga modelowi w nauce rozumowania logicznego, reprezentacji symbolicznej i rozwiązywaniu zapytań matematycznych.
  • Obrazy: szeroki zakres obrazów umożliwia modelowi wykonywanie zadań związanych z analizą obrazów i wyodrębnianiem danych wizualnych.

Połączenie tych różnych źródeł danych jest kluczowe dla wytrenowania wydajnego modelu multimodalnego, który może obsługiwać wiele różnych zadań i formatów danych.

Przetwarzanie wstępne danych

Oto główne metody czyszczenia i filtrowania danych zastosowane do danych treningowych:

  • Filtrowanie CSAM: na różnych etapach procesu przygotowywania danych zastosowaliśmy rygorystyczne filtrowanie CSAM (materiałów związanych z wykorzystywaniem seksualnym dzieci), aby wykluczyć szkodliwe i nielegalne treści.
  • Filtrowanie danych wrażliwych: aby wytrenowane modele Gemma były bezpieczne i niezawodne, zastosowaliśmy automatyczne techniki do odfiltrowywania z zestawów treningowych określonych danych osobowych i innych danych wrażliwych.
  • Dodatkowe metody: filtrowanie według jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.

Informacje o wdrożeniu

Szczegóły dotyczące wewnętrznych elementów modelu.

Sprzęt

Gemma została wytrenowana przy użyciu sprzętu Tensor Processing Unit (TPU) (TPUv4p, TPUv5p i TPUv5e). Trenowanie modeli językowo-wizualnych (VLMS) wymaga znacznej mocy obliczeniowej. TPU, które zostały zaprojektowane specjalnie do operacji na macierzach, które są powszechne w systemach uczących się, oferują w tej dziedzinie kilka zalet:

  • Wydajność: procesory TPU zostały zaprojektowane specjalnie do obsługi ogromnych obliczeń związanych z trenowaniem modeli VLM. Mogą one znacznie przyspieszyć trenowanie w porównaniu z procesorami.
  • Pamięć: TPU często mają dużo pamięci o dużej przepustowości, co umożliwia obsługę dużych modeli i wielkich rozmiarów wsadów podczas trenowania. Może to poprawić jakość modelu.
  • Skalowalność: moduły TPU (duże klastry TPU) stanowią skalowalne rozwiązanie do obsługi rosnącej złożoności dużych modeli podstawowych. Możesz rozłożyć proces uczenia się na wiele urządzeń TPU, aby przyspieszyć i zoptymalizować przetwarzanie.
  • Koszt: w wielu przypadkach jednostki TPU mogą stanowić bardziej ekonomiczne rozwiązanie do trenowania dużych modeli niż infrastruktura oparta na procesorach CPU, zwłaszcza jeśli weźmiemy pod uwagę czas i zasoby zaoszczędzone dzięki szybszemu trenowaniu.
  • Te korzyści są zgodne z zobowiązaniami Google dotyczącymi zrównoważonego rozwoju.

Oprogramowanie

Trenowanie zostało wykonane za pomocą JAX i ścieżek ML.

JAX pozwala badaczom korzystać ze sprzętu najnowszej generacji, w tym TPU, aby szybciej i efektywniej trenować duże modele. ML Pathways to najnowsze osiągnięcie Google w dziedzinie tworzenia systemów sztucznej inteligencji, które potrafią uogólniać działania na potrzeby wielu zadań. Jest to szczególnie przydatne w przypadku modeli podstawowych, w tym dużych modeli językowych, takich jak te.

JAX i ścieżki ML są używane razem zgodnie z opisem w artykule na temat rodziny modeli Gemini: „model programowania z jednym kontrolerem” w JAX i ścieżkach pozwala jednemu procesowi Pythona sterować całym procesem trenowania, co znacznie upraszcza proces programowania”.

Ocena

Wyniki i wskaźniki oceny modelu.

Wyniki testu porównawczego

Modele te zostały ocenione na podstawie dużej kolekcji różnych zbiorów danych i danych, aby objąć różne aspekty generowania tekstu. Wyniki oceny oznaczone IT dotyczą modeli dostosowanych do instrukcji. Wyniki oceny oznaczone jako PT dotyczą wytrenowanych modeli.

Uzasadnienie i rzetelność

Test porównawczy n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
GPQA Diament 0-shot 19,2 30,8 40,9 42,4
SimpleQA 0-shot 2.2 4.0 6.3 10,0
FACTS Grounding - 36,4 70.1 75,8 74,9
BIG-Bench Hard 0-shot 39.1 72,2 85,7 87,6
BIG-Bench Extra Hard 0-shot 7.2 11.0 16,3 19,3
IFEval 0-shot 80,2 90,2 88,9 90,4
Test porównawczy n-shot Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
HellaSwag 10 ujęć 62,3 77,2 84,2 85,6
BoolQ 0-shot 63,2 72,3 78,8 82,4
PIQA 0-shot 73,8 79,6 81,8 83,3
SocialIQA 0-shot 48,9 51,9 53,4 54,9
TriviaQA 5-shot 39,8 65,8 78,2 85,5
Pytania naturalne 5-shot 9,48 20,0 31,4 36,1
ARC-c 25-shot 38,4 56,2 68,9 70,6
ARC-e 0-shot 73,0 82,4 88,3 89,0
WinoGrande 5-shot 58,2 64,7 74,3 78,8
BIG-Bench Hard few-shot 28,4 50,9 72,6 77,7
DROP 1-shot 42,4 60.1 72,2 77,2

Nauki przyrodnicze, technika, inżynieria i matematyka

Test porównawczy n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMLU (Pro) 0-shot 14.7 43,6 60,6 67,5
LiveCodeBench 0-shot 1.9 12,6 24,6 29,7
Bird-SQL (wersja deweloperska) - 6.4 36,3 47,9 54,4
Matematyka 0-shot 48,0 75,6 83,8 89,0
HiddenMath 0-shot 15.8 43,0 54,5 60,3
MBPP 3-shot 35,2 63,2 73,0 74,4
HumanEval 0-shot 41,5 71,3 85,4 87,8
Natural2Code 0-shot 56,0 70,3 80,7 84,5
GSM8K 0-shot 62,8 89,2 94,4 95,9
Test porównawczy n-shot Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MMLU 5-shot 59,6 74,5 78,6
MMLU (Pro COT) 5-shot 29,2 45,3 52,2
AGIEval 3–5 strzałów 42.1 57,4 66,2
MATEMATAIKA 4-shot 24,2 43,3 50,0
GSM8K 8-shot 38,4 71,0 82,6
GPQA 5-shot 15,0 25,4 24,3
MBPP 3-shot 46,0 60,4 65,6
HumanEval 0-shot 36,0 45,7 48,8

Wielojęzyczne

Test porównawczy n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
Global-MMLU-Lite 0-shot 34,2 54,5 69,5 75,1
ECLeKTic 0-shot 1,4 4.6 10.3 16,7
WMT24++ 0-shot 35,9 46,8 51,6 53,4
Test porównawczy Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MGSM 2,04 34,7 64,3 74,3
Global-MMLU-Lite 24,9 57,0 69,4 75,7
WMT24++ (ChrF) 36,7 48,4 53,9 55,7
FloRes 29,5 39,2 46,0 48,8
XQuAD (wszystkie) 43,9 68,0 74,5 76,8
ECLeKTic 4,69 11.0 17.2 24,4
IndicGenBench 41,4 57,2 61,7 63,4

Tryb multimodalny

Test porównawczy Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMMU (val) 48,8 59,6 64,9
DocVQA 75,8 87,1 86,6
InfoVQA 50,0 64,9 70,6
TextVQA 57,8 67,7 65,1
AI2D 74,8 84,2 84,5
ChartQA 68,8 75,7 78,0
VQAv2 (val) 62,4 71,6 71,0
MathVista (testmini) 50,0 62,9 67,6
Test porównawczy Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
COCOcap 102 111 116
DocVQA (val) 72,8 82,3 85,6
InfoVQA (val) 44.1 54,8 59,4
MMMU (pkt) 39,2 50,3 56.1
TextVQA (val) 58,9 66,5 68,6
RealWorldQA 45,5 52,2 53,9
ReMI 27,3 38,5 44,8
AI2D 63,2 75,2 79,0
ChartQA 63,6 74,7 76,3
VQAv2 63,9 71,2 72,9
BLINK 38,0 35,9 39,6
OKVQA 51,0 58,7 60,2
TallyQA 42,5 51,8 54,3
SpatialSense VQA 50,9 60,0 59,4
CountBenchQA 26.1 17,8 68,0

Etyka i bezpieczeństwo

podejście i wyniki oceny etyki i bezpieczeństwa;

Metoda oceny

Nasze metody oceny obejmują oceny strukturalne i testy wewnętrznego zespołu ds. bezpieczeństwa dotyczące odpowiednich zasad dotyczących treści. W ramach red-teamingu przeprowadzono testy przez kilka różnych zespołów, z różnymi celami i wskaźnikami oceny człowieka. Modele te zostały ocenione pod kątem różnych kategorii związanych z etycznymi i bezpiecznymi rozwiązaniami, w tym:

  • Bezpieczeństwo dzieci: ocena promptów tekstowych i promptów tekstowo-obrazowych dotyczących zasad bezpieczeństwa dzieci, w tym wykorzystywania seksualnego i eksploatacji dzieci.
  • Bezpieczeństwo treści: ocena promptów tekstowych i tekstowych z obrazem dotyczących zasad bezpieczeństwa, w tym nękania, przemocy i drastycznych treści oraz szerzenia nienawiści.
  • Szkodliwe reprezentacje: ocena promptów tekstowych i promptów tekstowo-obrazowych dotyczących zasad bezpieczeństwa, w tym uprzedzeń, stereotypów i szkodliwych skojarzeń lub nieścisłości.

Oprócz oceny poziomu rozwoju przeprowadzamy „oceny zapewnienia”, czyli wewnętrzne oceny, które mają na celu podejmowanie decyzji dotyczących zarządzania odpowiedzialnością. Są one przeprowadzane niezależnie od zespołu zajmującego się rozwojem modelu, aby ułatwić podejmowanie decyzji dotyczących jego wydania. Ogólne wyniki są przekazywane zespołowi odpowiedzialnemu za model, ale zestawy promptów są blokowane, aby zapobiec nadmiernemu dopasowaniu i zapewnić, że wyniki będą przydatne przy podejmowaniu decyzji. Wyniki oceny są przekazywane do Rady ds. Odpowiedzialności i Bezpieczeństwa w ramach weryfikacji wersji.

Wyniki oceny

W przypadku wszystkich obszarów testów bezpieczeństwa zaobserwowaliśmy znaczną poprawę w kategoriach bezpieczeństwa dzieci, bezpieczeństwa treści i szkod wyrządzanych przez treści w porównaniu z poprzednimi modelami Gemini. Wszystkie testy zostały przeprowadzone bez filtrów bezpieczeństwa w celu oceny możliwości i zachowań modelu. W przypadku zarówno konwersji tekstu na tekst, jak i konwersji obrazu na tekst, a także we wszystkich rozmiarach modelu, model powodował minimalne naruszenia zasad i wykazał znaczną poprawę w stosunku do skuteczności poprzednich modeli Gemma w zakresie nieuzasadnionych wniosków. Ograniczeniem naszych ocen było to, że zawierały one prompty tylko w języku angielskim.

Zastosowanie i ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Otwarte modele językowo-wizualne (VLM) mają szerokie zastosowanie w różnych branżach i branżach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Lista ma na celu dostarczenie informacji kontekstowych na temat możliwych zastosowań, które twórcy modelu wzięli pod uwagę w ramach trenowania i rozwijania modelu.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: te modele można wykorzystać do generowania kreatywnych tekstów w takich formatach jak wiersze, skrypty, kod, teksty marketingowe i szkice e-maili.
    • Czatboty i konwersacyjna AI: tworzenie interfejsów konwersacyjnych do obsługi klienta, wirtualnych asystentów i aplikacji interaktywnych.
    • Podsumowanie tekstu: generowanie zwięzłych podsumowań korpusów tekstowych, artykułów naukowych i raportów.
    • Wyodrębnianie danych z obrazu: te modele można wykorzystać do wyodrębniania, interpretowania i podsumowywania danych wizualnych na potrzeby komunikacji tekstowej.
  • Badania i edukacja
    • Przetwarzanie języka naturalnego (NLP) i badania nad VLM: te modele mogą służyć jako podstawa do eksperymentowania z technikami VLM i NLP, tworzenia algorytmów oraz przyczyniania się do rozwoju tej dziedziny.
    • Narzędzia do nauki języka: obsługa interaktywnych opcji nauki języka, pomoc w poprawianiu błędów gramatycznych lub ćwiczenia z pisania.
    • Eksploracja wiedzy: pomaga badaczom w eksplorowaniu dużych ilości tekstu poprzez generowanie podsumowań lub udzielanie odpowiedzi na pytania dotyczące konkretnych tematów.

Ograniczenia

  • Dane treningowe
    • Jakość i różnorodność danych treningowych ma duży wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą ograniczać możliwości odpowiedzi modelu.
    • Zakres zbioru danych treningowych określa obszary tematyczne, z którymi model może skutecznie sobie radzić.
  • Kontekst i złożoność zadania
    • Modele lepiej radzą sobie z zadaniami, które można przedstawić za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
    • Skuteczność modelu może zależeć od ilości podanego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, do pewnego momentu).
  • Niejednoznaczność i niuanse językowe
    • Język naturalny jest z natury złożony. Modele mogą mieć problemy z uchwyceniem subtelnych niuansów, sarkazmu lub języka obrazowego.
  • Zgodność z prawdą
    • Modele generują odpowiedzi na podstawie informacji, których nauczyły się z danych treningowych, ale nie są bazami wiedzy. Mogą one generować nieprawidłowe lub nieaktualne stwierdzenia.
  • Common Sense
    • Modele korzystają z wzorców statystycznych w języku. W niektórych sytuacjach może brakować im zdrowego rozsądku.

Uwagi i zagrożenia etyczne

Rozwój modeli językowych opartych na widzeniu (VLM) budzi pewne wątpliwości etyczne. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i obiektywność
    • VLM trenowane na dużych zbiorach danych tekstowych i obrazowych pochodzących z rzeczywistego świata mogą odzwierciedlać uprzedzenia społeczno-kulturowe zawarte w materiałach szkoleniowych. Te modele zostały poddane dokładnej weryfikacji, wstępnym przetworzeniu danych wejściowych (opisanym na tej karcie) oraz późniejszym ocenom.
  • Nieprawdziwe informacje i nieprawidłowe użycie
    • Modele językowe mogą być niewłaściwie wykorzystywane do generowania fałszywych, wprowadzających w błąd lub szkodliwych treści.
    • Dostępne są wytyczne dotyczące odpowiedzialnego korzystania z modelu. Zapoznaj się z narzędziami do odpowiedzialnego tworzenia generatywnej AI.
  • Przejrzystość i odpowiedzialność:
    • Ta karta modelu zawiera podsumowanie informacji o architekturze, możliwościach, ograniczeniach i procesach oceny modeli.
    • Opracowany w sposób odpowiedzialny otwarty model daje możliwość dzielenia się innowacjami poprzez udostępnienie technologii VLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i sposoby ich ograniczania:

  • Przekazywanie uprzedzeń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i weryfikacji przez człowieka) oraz stosowanie technik eliminowania uprzedzeń podczas trenowania modelu, dostosowywania i innych przypadków użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie konkretnych zasad dotyczących produktów i przypadków użycia aplikacji.
  • Złe wykorzystanie do celów złośliwych: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w zwalczaniu złośliwego wykorzystania VLM. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom zgłaszanie nadużyć. Zabronione zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań Gemma.
  • Naruszenie prywatności: modele zostały wytrenowane na danych odfiltrowanych pod kątem usunięcia pewnych danych osobowych i innych informacji poufnych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności przy użyciu technik chroniących prywatność.

Zalety

W momencie wydania ta rodzina modeli zapewnia wysokowydajne, otwarte implementacje modeli językowych i wizualnych, które zostały zaprojektowane od podstaw z myślą o odpowiedzialnym rozwoju AI.

Na podstawie danych porównawczych opisanych w tym dokumencie okazało się, że te modele zapewniają lepszą skuteczność niż inne alternatywne otwarte modele o porównywalnej wielkości.