Обнимающее лицо | GitHub | Запуск блога | Документация
Лицензия : Apache 2.0 | Авторы : Google DeepMind
DiffusionGemma — это генеративная модель, разработанная Google DeepMind. Основанная на архитектуре Gemma 4 с 26B A4B Mixture-of-Experts (MoE), DiffusionGemma генерирует токены с использованием дискретной диффузии. Эта модель с открытыми весами является мультимодальной, обрабатывая текстовые, графические и видеоданные для генерации текстового вывода.
Созданная на основе MoE, DiffusionGemma призвана повысить скорость генерации (токенов в секунду), сохраняя при этом возможность развертывания в различных аппаратных средах. DiffusionGemma развивает архитектурные и функциональные достижения Gemma 4, представляя ряд ключевых функций:
- Дискретное распространение текста — это метод, переходящий от пошаговой авторегрессии к блочно-авторегрессивной многоканальной выборке. Он генерирует текст путем итеративного параллельного шумоподавления блоков токенов («канваса»), что значительно увеличивает скорость декодирования.
- Многомодальная обработка входных данных – обрабатывает чередующиеся текстовые, графические (с поддержкой переменного соотношения сторон и разрешения) и видеовходные данные для генерации текстовых выходных данных.
- Архитектура кодировщик-декодировщик – использует авторегрессионный кодировщик для обработки и кэширования контекста подсказки в паре с декодером, который применяет двунаправленное внимание к холсту генерации.
- Эффективность смешанной группы экспертов (MoE) – использует разреженную структуру MoE (8 активных экспертов из 128) для обеспечения мощных возможностей логического мышления при сохранении низкого потребления памяти, подходящего для локального выполнения.
- Режим мышления (рассуждения) – разработан как высокоэффективный инструмент рассуждения с настраиваемыми режимами мышления.
- Оптимизировано для обработки небольших пакетов данных – специально разработано для генерации с низкой задержкой и высокой скоростью на одном мощном ускорителе.
- Встроенная поддержка системных подсказок – как и в Gemma 4, она поддерживает обновление
systemроли, что позволяет вести более структурированные и контролируемые беседы.
Обзор модели
DiffusionGemma разработана для уменьшения последовательных узких мест стандартных причинно-следственных языковых моделей. Она использует архитектуру кодировщика-декодера, специально оптимизированную для скорости вывода.
Кодировщик работает в режиме предварительного заполнения, обрабатывая первоначальный запрос и генерируя кэш ключ-значение. Затем декодер использует двунаправленное внимание для обработки входного блока («холста») токенов, получая доступ к кэшированному контексту посредством перекрестного внимания.
В процессе инференса DiffusionGemma использует многоканальную выборку. Вместо генерации каждого токена по отдельности, модель итеративно очищает от шума целый блок токенов с помощью диффузионного сэмплера. После того, как холст полностью очищен от шума, он обрабатывается кодировщиком и добавляется в кэш ключ-значение, после чего модель генерирует следующий холст. Такой блочно-авторегрессивный подход обеспечивает более высокую скорость генерации текста.
ДиффузияДжемма
| Всего параметров | 25,2 млрд | | Активных параметров | 3,8 млрд | | Слоев | 30 | | Скользящее окно | 1024 токена | | Длина контекста | До 256 тыс. токенов | | Длина холста | 256 | | Размер словаря | 262 тыс. | | Количество экспертов | 8 активных / 128 всего и 1 общий | | Поддерживаемые модальности | Текст, Изображение | | Параметры кодировщика зрения | ~550 млн |
Результаты сравнительных тестов
Эти модели были протестированы на большом количестве различных наборов данных и метрик, охватывающих разные аспекты генерации текста. Результаты оценки, отмеченные в таблице, относятся к моделям, настроенным на основе инструкций, с рекомендуемым алгоритмом сэмплирования Entropy Bound (EB) (см. раздел «Рекомендации» ниже).
| Бенчмарк | ДиффузияДжемма 26B A4B | Джемма 4 26B A4B |
|---|---|---|
| MMLU Pro | 77,6% | 82,6% |
| AIME 2026 без инструментов | 69,1% | 88,3% |
| LiveCodeBench v6 | 69,1% | 77,1% |
| ЭЛО Codeforces | 1429 | 1718 |
| GPQA Diamond | 73,2% | 82,3% |
| Тау2 (среднее значение за 3 года) | 56,2% | 68,2% |
| HLE без инструментов | 11,0% | 8,7% |
| HLE с поиском | 11,9% | 17,2% |
| BigBench Extra Hard | 47,6% | 64,8% |
| МММЛУ | 81,5% | 86,3% |
| Зрение | ||
| MMMU Pro | 54,3% | 73,8% |
| OmniDocBench 1.5 (среднее расстояние редактирования, чем меньше, тем лучше) | 0,319 | 0,149 |
| MATH-Vision | 70,5% | 82,4% |
| MedXPertQA MM | 49,0% | 58,1% |
| Длинный контекст | ||
| MRCR v2 8 игл 128 тыс. (в среднем) | 32,0% | 44,1% |
Основные возможности
DiffusionGemma справляется с широким спектром задач в области обработки текста и компьютерного зрения. Ключевые возможности включают:
- Высокоскоростная генерация — параллельное шумоподавление 256 токенов с помощью диффузионной выборки обеспечивает низкую задержку за счет генерации 15-20 токенов за один проход, что позволяет достичь скорости генерации более 1100 токенов в секунду для каждого пользователя при небольших размерах пакета (H100, FP8).
- Адаптивное вычисление времени выполнения вывода — для более простых подсказок и структурированных задач, таких как код, требуется меньше этапов шумоподавления, что позволяет динамически изменять скорость обработки токенов в секунду в зависимости от сложности задачи.
- Мышление – Встроенный режим рассуждения, позволяющий модели пошагово обдумывать ответ.
- Длинный контекст – контекстные окна объемом до 256 000 токенов.
- Обработка изображений : обнаружение объектов, анализ документов/PDF-файлов, понимание экрана и пользовательского интерфейса, понимание диаграмм, оптическое распознавание символов (включая многоязычное), распознавание рукописного ввода и указание пальцем. Изображения могут обрабатываться с различными соотношениями сторон и разрешениями.
- Понимание видеоконтента – анализирует и описывает видеоконтент путем обработки последовательности кадров.
- Чередующийся мультимодальный ввод — смешивайте изображения, видео и текст в одном запросе для контекстно-зависимого анализа.
- Вызов функций – встроенная поддержка структурированного использования инструментов, позволяющая создавать рабочие процессы с участием агентов.
- Программирование и логическое мышление – Способность к генерации кода, его дополнению и пошаговому логическому рассуждению.
- Многоязычность – поддержка более 35 языков «из коробки», предварительно обучена на более чем 140 языках.
Передовые методы
Для достижения наилучших результатов используйте следующие конфигурации и рекомендации:
1. Настройки диффузионного отбора проб
Для всех вариантов использования следует применять следующую стандартизированную конфигурацию выборки:
- Метод: Диффузионная выборка с шумоподавлением с ограничением энтропии и адаптивной остановкой.
- Настройки выборки:
- Максимальное количество шагов шумоподавления = 48
- Температурный режим (для формирования логит-распределения): линейное затухание от 0,8 → 0,4
- Выбор токенов: На каждом шаге алгоритм выбирает токены с наименьшей энтропией, так что их взаимная информация остается ниже границы энтропии = 0,1.
- Функция шумоподавления токенов: сэмплер полностью шумоподавляет невыбранные токены.
- Адаптивная остановка: Отбор проб прекращается досрочно только в том случае, если одновременно выполняются оба следующих условия:
- Уверенные прогнозы: средняя энтропия модели по всей поверхности холста ниже порогового значения энтропии = 0,005.
- Стабильные прогнозы: прогнозы токенов с наибольшей вероятностью остаются неизменными на протяжении двух последовательных этапов шумоподавления.
2. Настройка режима мышления
Аналогично моделям Gemma 4, мы используем стандартные роли system , assistant и user . Для надлежащего управления мыслительным процессом используйте следующие управляющие токены:
- Запуск мыслительной деятельности: Мышление включается добавлением токена
<|think|>в начало системной подсказки. Чтобы отключить мышление, удалите токен (обратите внимание, что при этом может быть создан пустой канал мышления). - Стандартная генерация: Если включено логическое мышление, модель выведет свои внутренние рассуждения, а затем окончательный ответ, используя следующую структуру:
<|channel>thought\n[Внутренние рассуждения]<channel|>. - Нарушение мыслительного процесса: Если мышление нарушено, модель все равно сгенерирует теги, но с пустым блоком мыслей:
<|channel>thought\n<channel|>[Окончательный ответ] .
Обратите внимание, что многие библиотеки, такие как Transformer, берут на себя сложные задачи, связанные с шаблонами чата.
3. Многоэтапные беседы
- В истории не должно быть никаких размышлений: в многоэтапных диалогах результаты работы модели должны включать только окончательный ответ. Мысли, высказанные в предыдущих раундах модели, не должны добавляться до начала следующего раунда пользователя.
4. Порядок модальностей
- Для оптимальной работы с мультимодальными данными разместите изображение перед текстом в подсказке.
5. Переменное разрешение изображения
Помимо переменных соотношений сторон, DiffusionGemma поддерживает переменное разрешение изображения за счет настраиваемого бюджета визуальных токенов, который контролирует количество токенов, используемых для представления изображения. Больший бюджет токенов сохраняет больше визуальных деталей за счет дополнительных вычислительных ресурсов, в то время как меньший бюджет обеспечивает более быструю обработку для задач, не требующих детального понимания.
- Поддерживаемые бюджеты токенов: 70 , 140 , 280 , 560 и 1120 .
- Используйте меньшие бюджеты для классификации, создания подписей или анализа видео, где более быстрая обработка и вывод информации из большого количества кадров важнее, чем детальная проработка.
- Для таких задач, как оптическое распознавание символов, анализ документов или чтение мелкого текста, следует выделять больше средств .
6. Длительность видео
Все модели поддерживают ввод изображений и могут обрабатывать видео как кадры. Видео поддерживает максимальную продолжительность 60 секунд при условии обработки изображений со скоростью один кадр в секунду.
Модель данных
Данные, использованные для обучения модели, и способ их обработки.
обучающий набор данных
Наш предварительный обучающий набор данных представляет собой крупномасштабную, разнообразную коллекцию данных, охватывающую широкий спектр областей и форматов, включая веб-документы, код, изображения, аудио, с датой окончания сбора данных в январе 2025 года. Вот основные компоненты:
- Веб-документы: Разнообразная коллекция веб-текста обеспечивает модели доступ к широкому спектру лингвистических стилей, тем и лексики. Обучающий набор данных включает контент более чем на 140 языках.
- Код: Ознакомление модели с кодом помогает ей изучить синтаксис и шаблоны языков программирования, что улучшает ее способность генерировать код и понимать вопросы, связанные с кодом.
- Математика: Обучение на основе математических текстов помогает модели освоить логическое мышление, символическое представление и решать математические задачи.
- Изображения: Широкий спектр изображений позволяет модели выполнять задачи анализа изображений и извлечения визуальных данных.
Сочетание этих разнообразных источников данных имеет решающее значение для обучения мощной мультимодальной модели, способной обрабатывать широкий спектр различных задач и форматов данных.
Предварительная обработка данных
Ниже представлены основные методы очистки и фильтрации данных, примененные к обучающим данным:
- Фильтрация материалов, содержащих материалы сексуального характера, касающиеся детей (CSAM): На нескольких этапах подготовки данных применялась строгая фильтрация CSAM (материалов, содержащих материалы сексуального характера, касающиеся детей), чтобы исключить вредоносный и незаконный контент.
- Фильтрация конфиденциальных данных: Для обеспечения безопасности и надежности предварительно обученных моделей Gemma использовались автоматизированные методы для фильтрации определенной личной информации и других конфиденциальных данных из обучающих наборов.
- Дополнительные методы: Фильтрация на основе качества и безопасности контента в соответствии с нашей политикой .
Этика и безопасность
Поскольку открытые модели становятся центральным элементом корпоративной инфраструктуры, происхождение данных и безопасность приобретают первостепенное значение. Разработанная Google DeepMind, модель DiffusionGemma проходит те же строгие проверки безопасности, что и наши собственные модели Gemini.
Подход к оценке
DiffusionGemma был разработан в сотрудничестве с внутренними командами по безопасности и ответственному использованию ИИ. Для повышения безопасности модели был проведен ряд автоматизированных и ручных оценок. Эти оценки соответствуют принципам ИИ Google , а также политике безопасности, направленной на предотвращение создания вредоносного контента нашими генеративными моделями ИИ, включая:
- Контент, связанный с материалами о сексуальном насилии и эксплуатации детей.
- Опасный контент (например, пропаганда самоубийства или обучение действиям, которые могут причинить вред в реальной жизни).
- Содержит материалы откровенно сексуального характера.
- Язык ненависти (например, дегуманизация членов защищаемых групп)
- Преследование (например, подстрекательство к насилию в отношении людей)
Результаты оценки
Во всех областях тестирования безопасности мы наблюдали значительные улучшения во всех категориях безопасности контента по сравнению с предыдущими поколениями моделей Gemma. В целом, DiffusionGemma, как и модели Gemma 4, значительно превосходит модели Gemma 3 и 3n по повышению безопасности, при этом сводя к минимуму необоснованные отказы. Все тестирование проводилось намеренно без фильтров безопасности, чтобы оценить исходные возможности модели и ее базовое поведение. Как для преобразования текста в текст, так и для преобразования изображений в текст, и для всех размеров модели, модель показала минимальное количество нарушений правил и значительные улучшения по сравнению с предыдущими моделями Gemma.
Использование и ограничения
Эти модели имеют определенные ограничения, о которых пользователям следует знать.
Назначение
Мультимодальные модели (способные обрабатывать визуальную, языковую и/или звуковую информацию) имеют широкий спектр применения в различных отраслях и областях. Приведенный ниже список потенциальных применений не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели моделей рассматривали в процессе обучения и разработки моделей.
- Создание и распространение контента
- Генерация текста: Создает креативные текстовые форматы, такие как стихи, сценарии, код, маркетинговые тексты и черновики электронных писем.
- Чат-боты и разговорный ИИ: обеспечивают работу разговорных интерфейсов для обслуживания клиентов, виртуальных помощников или интерактивных приложений.
- Создание кратких резюме текста: генерирует лаконичные резюме текстовых корпусов, научных работ или отчетов.
- Извлечение данных из изображений: Извлекает, интерпретирует и обобщает визуальные данные для текстовой коммуникации.
- Исследования и образование
- Исследования в области обработки естественного языка (NLP) и визуального обучения (VLM): служат основой для экспериментов исследователей с методами VLM и NLP, разработки алгоритмов и внесения вклада в развитие этой области.
- Инструменты для изучения языка: поддерживают интерактивный процесс изучения языка, помогают в исправлении грамматических ошибок или предоставляют возможности для практики письма.
- Исследование знаний: помогает исследователям изучать большие объемы текста, создавая резюме или отвечая на вопросы по конкретным темам.
Ограничения
- обучающие данные
- Качество и разнообразие обучающих данных существенно влияют на возможности модели. Предвзятость или пробелы в обучающих данных могут привести к ограничениям в результатах работы модели.
- Объем обучающего набора данных определяет предметные области, которые модель может эффективно обрабатывать.
- Контекст и сложность задачи
- Модель хорошо справляется с задачами, которые можно сформулировать с помощью четких подсказок и инструкций. Задачи с открытым концом или очень сложные задачи могут представлять собой серьезную проблему.
- На производительность модели может влиять объем предоставленного контекста (более длинный контекст, как правило, приводит к лучшим результатам, до определенного момента).
- Языковая неоднозначность и нюансы
- Естественный язык по своей природе сложен. Модель может испытывать трудности с пониманием тонких нюансов, сарказма или образных выражений.
- Фактическая точность
- Модель генерирует ответы на основе информации, полученной из обучающих наборов данных, но это не базы знаний. Она может генерировать неверные или устаревшие фактические утверждения.
- Здравый смысл
- Данная модель основана на статистических закономерностях в языке. В некоторых ситуациях ей может не хватать способности применять здравый смысл.
Этические соображения и риски
При создании открытой модели, сочетающей визуальный и языковой подходы, мы тщательно учли следующие моменты:
- Предвзятость и справедливость
- Модели визуального обучения (VLM), обученные на больших объемах реальных текстовых и графических данных, могут отражать социокультурные предубеждения, заложенные в обучающем материале. Для снижения риска возникновения таких предубеждений модель DiffusionGemma прошла тщательную проверку, предварительную обработку входных данных и оценку после обучения, как указано в этой карточке.
- Дезинформация и злоупотребление
- VLM-ы могут быть использованы не по назначению для создания текста, который является ложным, вводящим в заблуждение или вредным.
- Рекомендации по ответственному использованию модели приведены в руководстве «Responsible Generative AI Toolkit» .
- Прозрачность и подотчетность
- Данная карточка модели содержит подробную информацию об архитектуре модели, ее возможностях, ограничениях и процессах оценки.
- Ответственно разработанная открытая модель предоставляет возможность делиться инновациями, делая технологию VLM доступной для разработчиков и исследователей во всей экосистеме искусственного интеллекта.
Выявленные риски и меры по их смягчению :
- Создание вредоносного контента: механизмы и рекомендации по обеспечению безопасности контента имеют важное значение. Разработчикам рекомендуется проявлять осторожность и внедрять соответствующие меры защиты контента в соответствии с политикой конкретного продукта и сценариями его использования.
- Злоупотребление в злонамеренных целях: технические ограничения, а также обучение разработчиков и конечных пользователей могут помочь предотвратить злонамеренное использование виртуальных медиаплатформ. Предоставляются образовательные ресурсы и механизмы отчетности, позволяющие пользователям сообщать о случаях злоупотребления.
- Нарушения конфиденциальности: Модели обучались на данных, отфильтрованных для удаления определенной личной информации и других конфиденциальных данных. Разработчикам рекомендуется соблюдать правила защиты конфиденциальности, используя методы, обеспечивающие защиту персональных данных.
- Увековечивание предвзятости: Рекомендуется проводить непрерывный мониторинг (с использованием оценочных метрик, экспертной оценки) и изучать методы устранения предвзятости во время обучения модели, тонкой настройки и других сценариев использования.
Преимущества
На момент выпуска это высокопроизводительная модель открытого языка машинного зрения с низкой задержкой, представляющая собой привлекательный вариант для разработчиков и тех, кто заинтересован в исследовании моделей распространения языков. В отличие от моделей аналогичного размера, эта модель разработана с нуля с учетом принципов ответственного развития ИИ.