DiffusionGemma — это экспериментальная открытая модель, исследующая диффузию текста, исключительно быстрый подход к генерации текста. Основанная на 26B (4B активных) архитектуре Gemma 4 Mixture-of-Experts (MoE), DiffusionGemma генерирует токены с использованием дискретной диффузии. Эта модель с открытыми весами является мультимодальной, обрабатывая текстовые, графические и видеовходные данные для генерации текстового вывода.
Созданная на основе MoE, DiffusionGemma призвана повысить скорость генерации (токенов в секунду), сохраняя при этом возможность развертывания в различных аппаратных средах. DiffusionGemma развивает архитектурные и функциональные достижения Gemma 4, представляя ряд ключевых функций:
- Дискретное распространение текста: отходит от традиционной причинно-следственной генерации токенов к блочно-авторегрессивной многоканальной выборке. Модель генерирует текст путем итеративного шумоподавления блоков токенов («канваса») параллельно, что значительно повышает скорость декодирования.
- Мультимодальная обработка: изначально принимает текст, изображения (с поддержкой переменного соотношения сторон и разрешения) и видеосигнал. (Примечание: аудиовход не поддерживается).
- Архитектура кодировщика-декодера: Использует авторегрессивный кодировщик для обработки и кэширования контекста подсказки в сочетании с шумоподавлением, которое применяет двунаправленное внимание к полю генерации.
- Эффективность алгоритма «смешанных экспертов» (MoE): Использует разреженную архитектуру MoE на основе 26-битного (4-битного активного) варианта MoE, обеспечивая возможности глубокого логического вывода с минимальными накладными расходами. При квантовании он укладывается в 18 ГБ видеопамяти потребительских графических процессоров, что идеально подходит для локального выполнения.
- Режим мышления: Встроенные настраиваемые каналы рассуждений позволяют модели пошагово обдумывать ситуацию, прежде чем выдать окончательный ответ.
Компромисс с традиционными моделями
Хотя традиционные языковые модели очень эффективны для крупномасштабных облачных развертываний, поскольку они могут обрабатывать тысячи запросов одновременно, их локальное выполнение для одного пользователя приводит к неэффективному использованию оборудования. DiffusionGemma решает эту проблему, генерируя одновременно весь блок из 256 токенов, а не по одному токену за раз, что максимизирует производительность локального оборудования.
Однако этот подход ориентирован исключительно на локальное использование с низкой параллельностью, ориентированное на потребителя; поскольку параллельное декодирование дает все меньшую отдачу при высоких облачных нагрузках с большим количеством запросов в секунду, преимущество в пропускной способности наиболее выражено при малых и средних размерах пакетов на одном ускорителе.
Рекомендуемая конфигурация подачи
Для оптимальной задержки и качества мы рекомендуем использовать следующие параметры по умолчанию для настроек диффузионной выборки:
| Параметр | Рекомендуемое значение | Функция | Обоснование |
|---|---|---|---|
| Максимальное количество шагов шумоподавления | 48 | Верхняя граница количества шагов шумоподавления на одном холсте. | Безопасное ограничение на количество шагов шумоподавления. При включении адаптивной остановки шумоподавление будет останавливаться за меньшее количество шагов, обычно за 12-16 шагов в зависимости от задачи. |
| Температурный режим | Линейный 0,8 -> 0,4 | График масштабирования температуры, начинающийся с высоких значений и снижающийся в зависимости от шагов шумоподавления. | Высокая температура (0,8) стимулирует раннее исследование; низкая температура (0,4) фиксирует окончательные токены. |
| Адаптивная ранняя остановка | Пороговое значение энтропии: 0,005 | Приостановляет исполнение досрочно, если А) средняя энтропия модели по всей поверхности холста ниже порогового значения, и B) если два последовательных предсказания шумоподавителя остаются идентичными. | Для более простых подсказок и структурированных задач, таких как код, требуется меньше этапов шумоподавления, что позволяет динамически изменять скорость обработки токенов в секунду в зависимости от сложности задачи. |
| Выбор токена | Ограничение энтропии: 0,1 | На каждом шаге алгоритм сэмплирования выбирает токены с наименьшей энтропией, так что их взаимная информационная граница остается ниже границы энтропии. Невыбранные токены алгоритм сэмплирования полностью очищает от шума. | Гарантирует, что для уточнения холста будут выбраны только те токены, в отношении которых модель относительно уверена, а остальные токены будут уточнены на последующих этапах шумоподавления. |
Получите его на Hugging Face, на Kaggle , на Vertex.
Получите доступ к экспериментальным весам модели (распространяемым под лицензией Apache 2.0), что позволит вам использовать ее в собственных проектах и приложениях.
Узнайте больше об архитектуре DiffusionGemma. Попробуйте DiffusionGemma.
Тонкая настройка DiffusionGemma Развертывание DiffusionGemma