Ускорьте работу Gemma 4 с помощью прогнозирования нескольких токенов.

В Gemma 4 используется архитектура Multi-Token Prediction (MTP), обеспечивающая высокоэффективное спекулятивное декодирование. Спекулятивное декодирование — это метод ускорения вывода в больших языковых моделях. Вместо того чтобы полагаться исключительно на большую целевую модель для авторегрессивной генерации токенов (генерация по одному токену за раз, где каждый новый токен зависит от предыдущих), меньшая, более быстрая «черновая модель» предсказывает на несколько токенов вперед. Затем целевая модель параллельно проверяет эти черновые токены. Если целевая модель отклоняет черновой токен, она все равно генерирует правильный токен для этой позиции (гарантируя, что этот шаг не будет потрачен впустую), и черновая модель возобновляет предсказание с этого нового правильного токена.

Gemma 4 реализует MTP, расширяя базовую модель за счет этой меньшей и более быстрой черновой модели. Эта черновая модель не является независимой, поскольку она использует ту же таблицу встраивания входных данных, что и целевая модель, и строится непосредственно на основе активаций последнего слоя. Это приводит к значительному ускорению декодирования, гарантируя при этом точно такое же качество, как и при стандартной авторегрессивной генерации, что делает эти контрольные точки идеальными для приложений с низкой задержкой и работающих на устройстве.

Спекулятивное декодирование работает путем создания нескольких токенов и их проверки за один прямой проход. Для плотных моделей для каждого токена используются одни и те же веса, поэтому проверка нескольких созданных токенов добавляет минимальные накладные расходы. Модели типа «Смешанные эксперты» (MoE), такие как Gemma 4 26B A4B, работают иначе. Каждый токен может активировать разных экспертов, поэтому проверка созданных токенов может потребовать загрузки дополнительных весов экспертов из памяти, что нивелирует преимущества от создания токенов. При больших размерах пакета обычно наблюдается большее совпадение активированных экспертов в разных последовательностях, что улучшает повторное использование загруженных весов. При размере пакета 1 это совпадение ограничено, поэтому алгоритм создания токенов 26B A4B может не обеспечить ускорение на аппаратных платформах без хорошего параллелизма.

Улучшения MTP

В Gemma 4 представлен ряд улучшений стандартного конвейера спекулятивного декодирования, направленных на повышение качества создаваемых токенов и эффективности:

  • Общие входные векторные представления : черновая модель использует ту же таблицу входных векторных представлений, что и целевая модель.
  • Активации целевой модели : Черновая модель использует активации из последнего слоя целевой модели, объединяет их с векторными представлениями токенов и проецирует их вниз до размерности модели, созданной в черновом варианте.
  • Эффективный встраиватель : Чтобы избежать дорогостоящей операции прогнозирования по всему словарю, модель группирует похожие токены в кластеры. Сначала она определяет наиболее вероятные кластеры, а затем ограничивает свои окончательные вычисления только токенами внутри этих выбранных кластеров (только E2B и E4B).