W przypadku modelu Gemma 4 architektura Multi-Token Prediction (MTP) umożliwia wysoce wydajne dekodowanie spekulacyjne. Dekodowanie spekulacyjne to technika przyspieszania wnioskowania w przypadku dużych modeli językowych. Zamiast polegać wyłącznie na dużym modelu docelowym, który generuje tokeny autoregresywnie (po jednym tokenie, przy czym każdy nowy token zależy od poprzednich), mniejszy i szybszy „model roboczy” przewiduje kilka tokenów z wyprzedzeniem. Model docelowy weryfikuje następnie te zaproponowane tokeny równolegle. Jeśli model docelowy odrzuci zaproponowany token, nadal wygeneruje prawidłowy token dla tej pozycji (dzięki czemu krok nie zostanie zmarnowany), a model roboczy wznowi prognozowanie od tego nowego, prawidłowego tokena.
Gemma 4 implementuje MTP, rozszerzając model podstawowy o mniejszy i szybszy model roboczy. Ten model w wersji roboczej nie jest niezależny, ponieważ współdzieli tabelę osadzania danych wejściowych z modelem docelowym i jest budowany bezpośrednio na podstawie aktywacji ostatniej warstwy. Dzięki temu dekodowanie jest znacznie szybsze, a jednocześnie jakość jest dokładnie taka sama jak w przypadku standardowego autoregresywnego generowania, co sprawia, że te punkty kontrolne idealnie nadają się do zastosowań wymagających małych opóźnień i na urządzeniu.
Dekodowanie spekulacyjne polega na tworzeniu kilku tokenów i weryfikowaniu ich w jednym przejściu do przodu. W przypadku modeli gęstych te same wagi są używane dla każdego tokena, więc weryfikacja wielu tokenów roboczych wiąże się z minimalnym obciążeniem. Modele typu Mixture of Experts (MoE), takie jak Gemma 4 26B A4B, działają inaczej. Każdy token może aktywować różnych ekspertów, więc weryfikacja wygenerowanych tokenów może wymagać wczytania z pamięci dodatkowych wag ekspertów, co niweluje korzyści wynikające z generowania. Przy większych rozmiarach partii zwykle występuje większe pokrywanie się aktywowanych ekspertów w różnych sekwencjach, co zwiększa ponowne wykorzystanie wczytanych wag. Przy wielkości wsadu 1 ten nakład jest ograniczony, dlatego model 26B A4B może nie przyspieszać działania na platformach sprzętowych bez dobrej równoległości.
Ulepszenia MTP
Gemma 4 wprowadza kilka ulepszeń standardowego potoku spekulacyjnego dekodowania, aby poprawić jakość generowanych tokenów i wydajność:
- Udostępnione osadzanie danych wejściowych: model roboczy udostępnia tabelę osadzania danych wejściowych modelowi docelowemu.
- Aktywacje modelu docelowego: model roboczy używa aktywacji z ostatniej warstwy modelu docelowego, łączy je z osadzaniem tokenów i przekształca w dół do wymiaru modelu roboczego.
- Efficient Embedder: aby uniknąć kosztownej operacji prognozowania w całym słowniku, model grupuje podobne tokeny w klastry. Najpierw identyfikuje najbardziej prawdopodobne klastry, a następnie ogranicza ostateczne obliczenia tylko do tokenów w tych wybranych klastrach (tylko E2B i E4B).