Karta modelu DiffusionGemma

Hugging Face | GitHub | Blog o wprowadzaniu | Dokumentacja
Licencja: Apache 2.0 | Autorzy: Google DeepMind

DiffusionGemma to model generatywny opracowany przez Google DeepMind. DiffusionGemma, oparty na architekturze Gemma 4 z 26 mld parametrów i mieszanką ekspertów (MoE) A4B, generuje tokeny za pomocą dyskretnej dyfuzji. Ten model z otwartymi wagami jest multimodalny, co oznacza, że obsługuje dane wejściowe w postaci tekstu, obrazów i filmów, a jako dane wyjściowe generuje tekst.

DiffusionGemma, oparty na architekturze MoE, został zaprojektowany tak, aby zwiększyć szybkość generowania (tokeny na sekundę) przy jednoczesnym zachowaniu możliwości wdrożenia w różnych środowiskach sprzętowych. DiffusionGemma wykorzystuje ulepszenia architektury i możliwości modelu Gemma 4, wprowadzając kilka podstawowych funkcji:

  • Dyskretna dyfuzja tekstu – przejście z autoregresji token po tokenie na próbkowanie blokowo-autoregresyjne na wielu płótnach. Model generuje tekst, iteracyjnie odszumiając równolegle bloki tokenów („płótno”), co znacznie zwiększa szybkość dekodowania.
  • Przetwarzanie danych wejściowych multimodalnych – przetwarzanie przeplatanych danych wejściowych w postaci tekstu, obrazów (z obsługą zmiennych proporcji i rozdzielczości) oraz filmów w celu generowania danych wyjściowych w postaci tekstu.
  • Architektura kodera-dekodera – wykorzystuje autoregresyjny koder do przetwarzania i buforowania kontekstu prompta oraz dekoder, który stosuje dwukierunkową uwagę na płótnie generowania.
  • Wydajność mieszanki ekspertów (MoE) – wykorzystuje rzadką architekturę MoE (8 aktywnych ekspertów na 128) w celu zapewnienia zaawansowanych możliwości rozumowania przy jednoczesnym zachowaniu niskiego wykorzystania pamięci, co umożliwia lokalne wykonywanie.
  • Tryb myślenia (rozumowanie) – zaprojektowany jako wysoce wydajny moduł rozumowania z konfigurowalnymi trybami myślenia.
  • Optymalizacja pod kątem wnioskowania z małym rozmiarem partii – zaprojektowany specjalnie pod kątem generowania z niskim opóźnieniem i dużą szybkością na jednym wydajnym akceleratorze.
  • Natywna obsługa promptów systemowych – podobnie jak w przypadku modelu Gemma 4, obsługuje aktualizowanie roli system, co umożliwia bardziej uporządkowane i kontrolowane rozmowy.

Omówienie modelu

DiffusionGemma został zaprojektowany tak, aby zmniejszyć sekwencyjne wąskie gardła standardowych przyczynowych modeli językowych. Wykorzystuje architekturę kodera-dekodera zoptymalizowaną specjalnie pod kątem szybkości wnioskowania.

Koder działa w trybie wstępnego wypełniania, przetwarzając początkowego prompta i generując pamięć podręczną KV. Dekoder wykorzystuje następnie dwukierunkową uwagę do przetwarzania bloku wejściowego (płótna) tokenów, uzyskując dostęp do buforowanego kontekstu za pomocą uwagi krzyżowej.

Podczas wnioskowania DiffusionGemma wykorzystuje próbkowanie na wielu płótnach. Zamiast generować tokeny pojedynczo, model iteracyjnie odszumia cały blok tokenów za pomocą próbnika dyfuzji. Gdy płótno zostanie w pełni odszumione, jest przetwarzane przez koder i dołączane do pamięci podręcznej KV, po czym model generuje następne płótno. To podejście blokowo-autoregresyjne ułatwia generowanie tekstu z większą szybkością.

DiffusionGemma

| Łączna liczba parametrów | 25,2 mld | | Aktywne parametry | 3,8 mld | | Warstwy | 30 | | Okno przesuwne | 1024 tokeny | | Długość kontekstu | Do 256 tys. tokenów | | Długość płótna | 256 | | Rozmiar słownika | 262 tys. | | Liczba ekspertów | 8 aktywnych / 128 łącznie i 1 wspólny | | Obsługiwane modalności | Tekst, obraz | | Parametry kodera widzenia | Ok. 550 mln |

Wyniki testów porównawczych

Modele te zostały ocenione na podstawie dużej kolekcji różnych zbiorów danych i wskaźników, aby uwzględnić różne aspekty generowania tekstu. Wyniki oceny oznaczone w tabeli dotyczą modeli dostrojonych pod kątem instrukcji z zalecanym próbnikiem Entropy Bound (EB) (patrz Sprawdzone metody poniżej).

Test porównawczy DiffusionGemma 26B A4B Gemma 4 26B A4B
MMLU Pro 77,6% 82,6%
AIME 2026 bez narzędzi 69,1% 88,3%
LiveCodeBench v6 69,1% 77,1%
Codeforces ELO 1429 1718
GPQA Diamond 73,2% 82,3%
Tau2 (średnia z 3) 56,2% 68,2%
HLE bez narzędzi 11,0% 8,7%
HLE z wyszukiwarką 11,9% 17,2%
BigBench Extra Hard 47,6% 64,8%
MMMLU 81,5% 86,3%
Vision
MMMU Pro 54,3% 73,8%
OmniDocBench 1.5 (średnia odległość edycji, im mniejsza, tym lepsza) 0,319 0,149
MATH-Vision 70,5% 82,4%
MedXPertQA MM 49,0% 58,1%
Długi kontekst
MRCR v2 8 igieł 128 tys. (średnia) 32,0% 44,1%

Najważniejsze funkcje

DiffusionGemma obsługuje szeroki zakres zadań związanych z tekstem i widzeniem. Najważniejsze funkcje:

  • Generowanie z dużą szybkością – równoległe odszumianie 256 tokenów za pomocą próbkowania dyfuzji zapewnia niskie opóźnienie dzięki generowaniu 15–20 tokenów na przejście do przodu, co umożliwia uzyskanie szybkości generowania przekraczającej 1100 tokenów na sekundę w ustawieniach z małą wielkością wsadu (H100, FP8).
  • Obliczanie adaptacyjnego czasu wnioskowania – prostsze prompty i uporządkowane zadania, takie jak kod, wymagają mniejszej liczby kroków odszumiania, co umożliwia dynamiczne dostosowywanie liczby tokenów na sekundę na podstawie złożoności zadania.
  • Myślenie – wbudowany tryb rozumowania, który umożliwia modelowi myślenie krok po kroku przed udzieleniem odpowiedzi.
  • Długi kontekst – okna kontekstu o wielkości do 256 tys. tokenów.
  • Analiza obrazów – wykrywanie obiektów, analizowanie dokumentów i plików PDF, analiza ekranu i interfejsu, analiza wykresów, OCR (w tym wielojęzyczny), rozpoznawanie pisma odręcznego i wskazywanie. Obrazy można przetwarzać przy zmiennych proporcjach i rozdzielczości.
  • Analiza filmów – analiza i opisywanie treści wideo przez przetwarzanie sekwencji klatek.
  • Przeplatane dane wejściowe multimodalne – mieszanie obrazów, filmów i tekstu w jednym prompcie w celu uzyskania rozumowania z bogatym kontekstem.
  • Wywoływanie funkcji – natywna obsługa uporządkowanego korzystania z narzędzi, co umożliwia przepływy pracy agentów.
  • Kodowanie i rozumowanie – możliwość generowania i uzupełniania kodu oraz logicznego rozumowania krok po kroku.
  • Wielojęzyczność – natychmiastowa obsługa ponad 35 języków, wstępne trenowanie na ponad 140 językach.

Sprawdzone metody

Aby uzyskać najlepszą wydajność, użyj tych konfiguracji i sprawdzonych metod:

1. Ustawienia próbkowania dyfuzji

We wszystkich przypadkach użycia stosuj tę samą standardową konfigurację próbkowania:

  • Metoda: próbkowanie dyfuzji z odszumianiem ograniczonym entropią i adaptacyjnym zatrzymywaniem.
  • Konfiguracja próbkowania:
    • Maksymalna liczba kroków odszumiania = 48
    • Harmonogram temperatury (do kształtowania logitów): liniowy spadek od 0,8 do 0,4
    • Wybór tokena: na każdym etapie próbnik wybiera tokeny o najniższej entropii, tak aby ich wzajemna informacja pozostawała poniżej granicy entropii = 0,1
    • Odszumianie tokenów: próbnik w pełni odszumia niewybrane tokeny
  • Adaptacyjne zatrzymywanie: próbkowanie kończy się wcześniej tylko wtedy, gdy jednocześnie spełnione są oba te warunki:
    • Pewne prognozy: średnia entropia modelu na płótnie jest niższa niż próg entropii = 0,005
    • Stabilne prognozy: prognozy tokenów o najwyższym prawdopodobieństwie pozostają identyczne w 2 kolejnych krokach odszumiania

2. Konfiguracja trybu myślenia

Podobnie jak w przypadku modeli Gemma 4, używamy standardowych ról system, assistant i user. Aby prawidłowo zarządzać procesem myślenia, użyj tych tokenów sterujących:

  • Wywoływanie myślenia: myślenie jest włączane przez dodanie tokena <|think|> na początku prompta systemowego. Aby wyłączyć myślenie, usuń token (pamiętaj, że może być nadal emitowany pusty kanał myślenia).
  • Standardowe generowanie: gdy myślenie jest włączone, model będzie wyświetlać wewnętrzne rozumowanie, a następnie ostateczną odpowiedź w tej strukturze: <|channel>thought\n[Internal reasoning]<channel|>.
  • Wyłączone zachowanie myślenia: jeśli myślenie jest wyłączone, model będzie nadal generować tagi, ale z pustym blokiem myślenia: <|channel>thought\n<channel|>[Final answer].

Pamiętaj, że wiele bibliotek, takich jak transformers, obsługuje złożoność szablonu czatu.

3. Rozmowy wieloetapowe

  • Brak treści myślenia w historii: w rozmowach wieloetapowych historyczne dane wyjściowe modelu powinny zawierać tylko ostateczną odpowiedź. Myśli z poprzednich etapów modelu nie mogą być dodawane przed rozpoczęciem następnego etapu użytkownika.

4. Kolejność modalności

  • Aby uzyskać optymalną wydajność w przypadku danych wejściowych multimodalnych, umieść treść obrazu przed tekstem w prompcie.

5. Zmienna rozdzielczość obrazu

Oprócz zmiennych proporcji DiffusionGemma obsługuje zmienną rozdzielczość obrazu dzięki konfigurowalnemu budżetowi tokenów wizualnych, który określa, ile tokenów jest używanych do reprezentowania obrazu. Wyższy budżet tokenów zachowuje więcej szczegółów wizualnych kosztem dodatkowych obliczeń, a niższy budżet umożliwia szybsze wnioskowanie w przypadku zadań, które nie wymagają szczegółowej analizy.

  • Obsługiwane budżety tokenów to: 70, 140, 280, 560 i 1120.
    • W przypadku klasyfikacji, generowania opisów lub analizy filmów, gdzie szybsze wnioskowanie i przetwarzanie wielu klatek przeważa nad szczegółowością, używaj niższych budżetów.
    • W przypadku zadań takich jak OCR, analizowanie dokumentów lub odczytywanie małego tekstu używaj wyższych budżetów.

6. Długość filmu

Wszystkie modele obsługują dane wejściowe w postaci obrazów i mogą przetwarzać filmy jako klatki. Filmy mogą trwać maksymalnie 60 sekund, przy założeniu, że obrazy są przetwarzane z szybkością 1 klatki na sekundę.

Dane modelu

Dane używane do trenowania modelu i sposób ich przetwarzania.

Zbiór danych treningowych

Nasz zbiór danych do wstępnego trenowania to duża, zróżnicowana kolekcja danych obejmująca szeroki zakres dziedzin i modalności, w tym dokumenty internetowe, kod, obrazy i dźwięk. Data odcięcia to styczeń 2025 r. Kluczowe komponenty:

  • Dokumenty internetowe: zróżnicowana kolekcja tekstów internetowych zapewnia modelowi dostęp do szerokiego zakresu stylów językowych, tematów i słownictwa. Zbiór danych treningowych zawiera treści w ponad 140 językach.
  • Kod: udostępnianie modelowi kodu pomaga mu w nauce składni i wzorców języków programowania, co zwiększa jego zdolność do generowania kodu i rozumienia pytań związanych z kodem.
  • Matematyka: trenowanie na tekstach matematycznych pomaga modelowi w nauce logicznego rozumowania, reprezentacji symbolicznej i odpowiadania na zapytania matematyczne.
  • Obrazy: szeroki zakres obrazów umożliwia modelowi wykonywanie zadań związanych z analizą obrazów i wyodrębnianiem danych wizualnych.

Połączenie tych różnorodnych źródeł danych ma zasadnicze znaczenie dla trenowania zaawansowanego modelu multimodalnego, który może obsługiwać szeroki zakres różnych zadań i formatów danych.

Wstępne przetwarzanie danych

Kluczowe metody czyszczenia i filtrowania danych stosowane w przypadku danych treningowych:

  • Filtrowanie CSAM: na kilku etapach procesu przygotowywania danych zastosowano rygorystyczne filtrowanie CSAM (materiały przedstawiające wykorzystywanie seksualne dzieci), aby wykluczyć szkodliwe i nielegalne treści.
  • Filtrowanie danych wrażliwych: w ramach zapewnienia bezpieczeństwa i niezawodności wstępnie wytrenowanych modeli Gemma zastosowano zautomatyzowane techniki filtrowania niektórych informacji osobistych i innych danych wrażliwych ze zbiorów treningowych.
  • Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.

Etyka i bezpieczeństwo

W miarę jak modele open source stają się kluczowym elementem infrastruktury przedsiębiorstwa, pochodzenie i bezpieczeństwo mają zasadnicze znaczenie. DiffusionGemma, opracowany przez Google DeepMind, przechodzi te same rygorystyczne oceny bezpieczeństwa co nasze zastrzeżone modele Gemini.

Podejście do oceny

DiffusionGemma został opracowany we współpracy z wewnętrznymi zespołami ds. bezpieczeństwa i odpowiedzialnej AI. Przeprowadzono szereg ocen zautomatyzowanych i ręcznych, aby zwiększyć bezpieczeństwo modelu. Oceny te są zgodne z zasadami Google dotyczącymi AI, a także z zasadami bezpieczeństwa, które mają na celu zapobieganie generowaniu przez nasze modele generatywnej AI szkodliwych treści, w tym:

  • treści związanych z materiałami przedstawiającymi wykorzystywanie seksualne dzieci i wykorzystywaniem dzieci;
  • treści niebezpiecznych (np. promujących samobójstwo lub zawierających instrukcje dotyczące działań, które mogą spowodować szkody w świecie rzeczywistym);
  • treści o charakterze jednoznacznie seksualnym;
  • szerzenia nienawiści (np. dehumanizowania członków grup chronionych);
  • nękania (np.zachęcania do przemocy wobec ludzi).

Wyniki oceny

We wszystkich obszarach testowania bezpieczeństwa zaobserwowaliśmy znaczne ulepszenia we wszystkich kategoriach bezpieczeństwa treści w porównaniu z poprzednimi generacjami modeli Gemma. Ogólnie rzecz biorąc, DiffusionGemma, podobnie jak modele Gemma 4, znacznie przewyższa modele Gemma 3 i 3n pod względem bezpieczeństwa, przy jednoczesnym zachowaniu niskiego poziomu nieuzasadnionych odmów. Wszystkie testy zostały celowo przeprowadzone bez filtrów bezpieczeństwa, aby ocenić podstawowe możliwości modelu i zachowania bazowe. W przypadku zarówno tekstu na podstawie tekstu, jak i obrazu na tekst oraz we wszystkich rozmiarach modelu model generował minimalne naruszenia zasad i wykazywał znaczne ulepszenia w porównaniu z poprzednimi modelami Gemma.

Użycie i ograniczenia

Modele te mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Modele multimodalne (zdolne do przetwarzania obrazu, języka lub dźwięku) mają szeroki zakres zastosowań w różnych branżach i dziedzinach. Ta lista potencjalnych zastosowań nie jest wyczerpująca. Jej celem jest dostarczenie informacji kontekstowych o możliwych przypadkach użycia, które twórcy modelu brali pod uwagę podczas trenowania i rozwijania modelu.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: generuje kreatywne formaty tekstu, takie jak wiersze, scenariusze, kod, teksty marketingowe i wersje robocze e-maili.
    • Czatboty i konwersacyjna AI: obsługuje interfejsy konwersacyjne do obsługi klienta, wirtualnych asystentów lub aplikacji interaktywnych.
    • Podsumowywanie tekstu: generuje zwięzłe podsumowania korpusu tekstu, prac badawczych lub raportów.
    • Wyodrębnianie danych z obrazów: wyodrębnia, interpretuje i podsumowuje dane wizualne na potrzeby komunikacji tekstowej.
  • Badania i edukacja
    • Przetwarzanie języka naturalnego (NLP) i badania VLM: służy jako podstawa dla badaczy do eksperymentowania z technikami VLM i NLP, opracowywania algorytmów i przyczyniania się do rozwoju tej dziedziny.
    • Narzędzia do nauki języków: obsługuje interaktywne metody nauki języków, pomagając w poprawianiu gramatyki lub zapewniając możliwość ćwiczenia pisania.
    • Eksploracja wiedzy: pomaga badaczom w eksplorowaniu dużych zbiorów tekstów przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.

Ograniczenia

  • Dane treningowe
    • Jakość i różnorodność danych treningowych mają znaczący wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
    • Zakres zbioru danych treningowych określa obszary tematyczne, które model może skutecznie obsługiwać.
  • Kontekst i złożoność zadania
    • Model dobrze radzi sobie z zadaniami, które można sformułować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
    • Na wydajność modelu może wpływać ilość podanego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, ale tylko do pewnego momentu).
  • Dwuznaczność i niuanse językowe
    • Język naturalny jest z natury złożony. Model może mieć trudności z uchwyceniem subtelnych niuansów, sarkazmu lub języka przenośnego.
  • Dokładność merytoryczna
    • Model generuje odpowiedzi na podstawie informacji, których nauczył się ze zbiorów danych treningowych, ale nie są to bazy wiedzy. Może generować nieprawidłowe lub nieaktualne stwierdzenia merytoryczne.
  • Zdrowy rozsądek
    • Model opiera się na wzorcach statystycznych w języku. W niektórych sytuacjach może nie być w stanie zastosować rozumowania opartego na zdrowym rozsądku.

Względy etyczne i ryzyko

Tworząc otwarty model języka widzenia, starannie rozważyliśmy te kwestie:

  • Uprzedzenia i obiektywność
    • Modele VLM trenowane na dużą skalę na danych tekstowych i obrazach z rzeczywistego świata mogą odzwierciedlać uprzedzenia społeczno-kulturowe zawarte w materiałach treningowych. DiffusionGemma został poddany starannej analizie, wstępnemu przetwarzaniu danych wejściowych i ocenom po trenowaniu, o których mowa w tej karcie, aby zmniejszyć ryzyko wystąpienia tych uprzedzeń.
  • Dezinformacja i nadużycia
    • Modele VLM mogą być wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
    • Dostępne są wytyczne dotyczące odpowiedzialnego korzystania z modelu. Zapoznaj się z zestawem narzędzi do odpowiedzialnej generatywnej AI.
  • Przejrzystość i odpowiedzialność
    • Ta karta modelu zawiera podsumowanie informacji o architekturze, możliwościach, ograniczeniach i procesach oceny modelu.
    • Odpowiedzialnie opracowany model open source daje możliwość dzielenia się innowacjami przez udostępnianie technologii VLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i środki zaradcze:

  • Generowanie szkodliwych treści: niezbędne są mechanizmy i wytyczne dotyczące bezpieczeństwa treści. Zachęcamy deweloperów do zachowania ostrożności i wdrożenia odpowiednich zabezpieczeń treści na podstawie konkretnych zasad dotyczących usług i przypadków użycia aplikacji.
  • Nadużycia w celach złośliwych: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w ograniczeniu złośliwych zastosowań modeli VLM. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania nadużyć przez użytkowników.
  • Naruszenia prywatności: modele były trenowane na danych, które zostały przefiltrowane w celu usunięcia niektórych informacji osobistych i innych danych wrażliwych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności za pomocą technik chroniących prywatność.
  • Utrwalanie uprzedzeń: zachęcamy do ciągłego monitorowania (za pomocą wskaźników oceny i sprawdzania przez weryfikatorów) oraz do eksplorowania technik usuwania uprzedzeń podczas trenowania modelu, dostrajania i innych przypadków użycia.

Korzyści

W momencie premiery jest to model języka widzenia open source o niskim opóźnieniu i wysokiej wydajności, który stanowi atrakcyjną opcję dla deweloperów i osób zainteresowanych badaniem modeli językowych dyfuzji. W porównaniu z modelami o podobnym rozmiarze model ten został zaprojektowany od podstaw z myślą o odpowiedzialnym rozwoju AI.