Обзор модели DiffusionGemma

DiffusionGemma — это экспериментальная открытая модель, исследующая диффузию текста, исключительно быстрый подход к генерации текста. Основанная на 26B (4B активных) архитектуре Gemma 4 Mixture-of-Experts (MoE), DiffusionGemma генерирует токены с использованием дискретной диффузии. Эта модель с открытыми весами является мультимодальной, обрабатывая текстовые, графические и видеовходные данные для генерации текстового вывода.

Созданная на основе MoE, DiffusionGemma призвана повысить скорость генерации (токенов в секунду), сохраняя при этом возможность развертывания в различных аппаратных средах. DiffusionGemma развивает архитектурные и функциональные достижения Gemma 4, представляя ряд ключевых функций:

  • Дискретное распространение текста: отходит от традиционной причинно-следственной генерации токенов к блочно-авторегрессивной многоканальной выборке. Модель генерирует текст путем итеративного шумоподавления блоков токенов («канваса») параллельно, что значительно повышает скорость декодирования.
  • Мультимодальная обработка: изначально принимает текст, изображения (с поддержкой переменного соотношения сторон и разрешения) и видеосигнал. (Примечание: аудиовход не поддерживается).
  • Архитектура кодировщика-декодера: Использует авторегрессивный кодировщик для обработки и кэширования контекста подсказки в сочетании с шумоподавлением, которое применяет двунаправленное внимание к полю генерации.
  • Эффективность алгоритма «смешанных экспертов» (MoE): Использует разреженную архитектуру MoE на основе 26-битного (4-битного активного) варианта MoE, обеспечивая возможности глубокого логического вывода с минимальными накладными расходами. При квантовании он укладывается в 18 ГБ видеопамяти потребительских графических процессоров, что идеально подходит для локального выполнения.
  • Режим мышления: Встроенные настраиваемые каналы рассуждений позволяют модели пошагово обдумывать ситуацию, прежде чем выдать окончательный ответ.

Компромисс с традиционными моделями

Хотя традиционные языковые модели очень эффективны для крупномасштабных облачных развертываний, поскольку они могут обрабатывать тысячи запросов одновременно, их локальное выполнение для одного пользователя приводит к неэффективному использованию оборудования. DiffusionGemma решает эту проблему, генерируя одновременно весь блок из 256 токенов, а не по одному токену за раз, что максимизирует производительность локального оборудования.

Однако этот подход ориентирован исключительно на локальное использование с низкой параллельностью, ориентированное на потребителя; поскольку параллельное декодирование дает все меньшую отдачу при высоких облачных нагрузках с большим количеством запросов в секунду, преимущество в пропускной способности наиболее выражено при малых и средних размерах пакетов на одном ускорителе.

Для оптимальной задержки и качества мы рекомендуем использовать следующие параметры по умолчанию для настроек диффузионной выборки:

Параметр Рекомендуемое значение Функция Обоснование
Максимальное количество шагов шумоподавления 48 Верхняя граница количества шагов шумоподавления на одном холсте. Безопасное ограничение на количество шагов шумоподавления. При включении адаптивной остановки шумоподавление будет останавливаться за меньшее количество шагов, обычно за 12-16 шагов в зависимости от задачи.
Температурный режим Линейный 0,8 -> 0,4 График масштабирования температуры, начинающийся с высоких значений и снижающийся в зависимости от шагов шумоподавления. Высокая температура (0,8) стимулирует раннее исследование; низкая температура (0,4) фиксирует окончательные токены.
Адаптивная ранняя остановка Пороговое значение энтропии: 0,005 Приостановляет исполнение досрочно, если
А) средняя энтропия модели по всей поверхности холста ниже порогового значения, и
B) если два последовательных предсказания шумоподавителя остаются идентичными.
Для более простых подсказок и структурированных задач, таких как код, требуется меньше этапов шумоподавления, что позволяет динамически изменять скорость обработки токенов в секунду в зависимости от сложности задачи.
Выбор токена Ограничение энтропии: 0,1 На каждом шаге алгоритм сэмплирования выбирает токены с наименьшей энтропией, так что их взаимная информационная граница остается ниже границы энтропии. Невыбранные токены алгоритм сэмплирования полностью очищает от шума. Гарантирует, что для уточнения холста будут выбраны только те токены, в отношении которых модель относительно уверена, а остальные токены будут уточнены на последующих этапах шумоподавления.

Получите его на Hugging Face, на Kaggle , на Vertex.

Получите доступ к экспериментальным весам модели (распространяемым под лицензией Apache 2.0), что позволит вам использовать ее в собственных проектах и ​​приложениях.

Узнайте больше об архитектуре DiffusionGemma. Попробуйте DiffusionGemma.

Тонкая настройка DiffusionGemma Развертывание DiffusionGemma