Gemma 4 została udostępniona z możliwością wprowadzania tekstu, dźwięku i obrazów oraz długim oknem kontekstu (do 256 tys. tokenów). Więcej informacji

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Omówienie modelu DiffusionGemma

DiffusionGemma to eksperymentalny model otwarty, który wykorzystuje dyfuzję tekstu, czyli wyjątkowo szybką metodę generowania tekstu. Model DiffusionGemma oparty na architekturze Gemma 4 z 26 miliardami parametrów (4 miliardy aktywnych) typu Mixture-of-Experts (MoE) generuje tokeny za pomocą dyskretnej dyfuzji. Ten model o otwartych wagach jest multimodalny, co oznacza, że obsługuje tekst, obrazy i filmy jako dane wejściowe, a jako dane wyjściowe generuje tekst.

Model DiffusionGemma, oparty na architekturze MoE, został zaprojektowany z myślą o zwiększeniu szybkości generowania (tokenów na sekundę) przy zachowaniu możliwości wdrażania w różnych środowiskach sprzętowych. Model DiffusionGemma wykorzystuje zaawansowane rozwiązania architektoniczne i funkcjonalne modelu Gemma 4, wprowadzając kilka podstawowych funkcji:

Discrete Text Diffusion: odchodzi od tradycyjnego generowania tokenów przyczynowych na rzecz autoregresywnego próbkowania wielopłóciennego. Model generuje tekst, iteracyjnie odszumiając bloki tokenów („płótno”) równolegle, aby znacznie zwiększyć szybkość dekodowania.
Przetwarzanie multimodalne: natywnie akceptuje tekst, obrazy (z obsługą różnych proporcji i rozdzielczości) oraz dane wejściowe wideo. (Uwaga: wejście audio nie jest obsługiwane).
Architektura enkoder-dekoder: wykorzystuje autoregresywny enkoder do przetwarzania i buforowania kontekstu promptu w połączeniu z odszumianiem, które stosuje dwukierunkową uwagę na obszarze generowania.
Wydajność modelu Mixture-of-Experts (MoE): wykorzystuje rzadką architekturę MoE opartą na wariancie MoE 26B (4B aktywnych), zapewniając zaawansowane możliwości rozumowania przy minimalnym narzucie. Po kwantyzacji mieści się w limitach 18 GB pamięci VRAM konsumenckich układów GPU, co jest idealne do lokalnego wykonywania.
Tryb myślenia: wbudowane konfigurowalne kanały rozumowania umożliwiają modelowi myślenie krok po kroku przed udzieleniem ostatecznej odpowiedzi.

Kompromis w przypadku modeli tradycyjnych

Tradycyjne modele językowe są bardzo wydajne w przypadku wdrożeń w chmurze na dużą skalę, ponieważ mogą przetwarzać tysiące żądań jednocześnie. Jednak uruchamianie ich lokalnie dla pojedynczego użytkownika powoduje niewystarczające wykorzystanie sprzętu. DiffusionGemma rozwiązuje ten problem, generując jednocześnie cały blok 256 tokenów, a nie po jednym tokenie, co maksymalizuje wydajność lokalnego sprzętu.

To podejście jest jednak przeznaczone dla użytkowników indywidualnych do użytku lokalnego przy niskim poziomie współbieżności, ponieważ równoległe dekodowanie przynosi coraz mniejsze korzyści w przypadku obciążeń w chmurze o wysokim QPS. Największą przewagę pod względem przepustowości można uzyskać przy małych i średnich wielkościach wsadów na jednym akceleratorze.

Zalecana konfiguracja obsługi

Aby uzyskać optymalne opóźnienie i jakość, zalecamy wdrożenie tych domyślnych parametrów ustawień próbkowania dyfuzyjnego:

Parametr	Zalecana wartość	Funkcja	Uzasadnienie
Maksymalna liczba kroków odszumiania	48	Górna granica liczby kroków odszumiania na obszar roboczy.	Bezpieczny limit liczby kroków odszumiania. Gdy włączone jest adaptacyjne zatrzymywanie, odszumianie kończy się po mniejszej liczbie kroków, zwykle po 12–16 krokach w zależności od zadania.
Harmonogram temperatury	Liniowe 0,8 –> 0,4	Harmonogram skalowania temperatury, który zaczyna się od wysokiej wartości i zmniejsza się w zależności od liczby kroków odszumiania.	Wysoka temperatura (0,8) zachęca do wczesnej eksploracji, a niska temperatura (0,4) blokuje ostateczne tokeny.
Adaptacyjne wczesne zatrzymanie	Próg entropii: 0,005	Wcześniej przerywa wykonywanie, jeśli: A) średnia entropia modelu na obszarze roboczym jest niższa od progu i B) 2 kolejne prognozy denoisera pozostają identyczne.	Prostsze prompty i ustrukturyzowane zadania, takie jak kod, wymagają mniej kroków odszumiania, co umożliwia dynamiczną szybkość tokenów na sekundę w zależności od złożoności zadania.
Wybór tokena	Granica entropii: 0,1	Na każdym etapie próbnik wybiera tokeny o najniższej entropii, tak aby ich wzajemne ograniczenie informacji pozostawało poniżej ograniczenia entropii. Sampler w pełni usuwa szum z niezaznaczonych tokenów.	Zapewnia, że do ulepszania obszaru roboczego wybierane są tylko tokeny, co do których model ma względną pewność, a pozostałe tokeny są ulepszane w późniejszych krokach odszumiania.

Pobierz z Hugging Face Pobierz z Kaggle Uzyskaj dostęp w Vertex

Dostęp do wag modeli eksperymentalnych (udostępnianych na licencji Apache 2.0), co umożliwia wdrażanie ich we własnych projektach i aplikacjach.

Więcej informacji o architekturze DiffusionGemma Wypróbuj DiffusionGemma

Dostrajanie modelu DiffusionGemma Wdrażanie modelu DiffusionGemma