
Обнимающее лицо | GitHub | Запуск блога | Документация
Лицензия : Apache 2.0 | Авторы : Google DeepMind
Gemma — это семейство открытых моделей, разработанных Google DeepMind. Модели Gemma 4 являются мультимодальными, обрабатывая текстовый и графический ввод (с поддержкой аудио в моделях E2B, E4B и 12B) и генерируя текстовый вывод. Этот релиз включает модели с открытыми весами как в предварительно обученном, так и в оптимизированном по инструкциям варианте. Gemma 4 имеет контекстное окно до 256 000 токенов и поддерживает многоязычность более чем на 140 языках.
Gemma 4, использующая как плотную (Dense), так и смешанную (Mixture-of-Experts, MoE) архитектуру, хорошо подходит для таких задач, как генерация текста, программирование и логическое мышление. Модели доступны в пяти различных размерах: E2B , E4B , 12B , 26B A4B и 31B . Разнообразие размеров позволяет развертывать их в средах от высокопроизводительных телефонов до ноутбуков и серверов, демократизируя доступ к передовым технологиям искусственного интеллекта.
Gemma 4 представляет ключевые возможности и архитектурные усовершенствования :
Рассуждение – Все модели этого семейства разработаны как высокоэффективные средства рассуждения с настраиваемыми режимами мышления.
Расширенные возможности мультимодальности – обработка текста, изображений с переменным соотношением сторон и разрешением (все модели), видео и аудио (доступно изначально в моделях E2B, E4B и 12B).
Разнообразные и эффективные архитектуры – предлагает варианты с высокой плотностью и смешанным составом экспертов (MoE) различных размеров для масштабируемого развертывания.
Оптимизировано для работы на устройстве — более компактные модели специально разработаны для эффективного локального выполнения на ноутбуках и мобильных устройствах.
Расширенное контекстное окно – в небольших моделях контекстное окно занимает 128 КБ, а в средних – 256 КБ.
Расширенные возможности программирования и работы с агентами — обеспечивает значительное улучшение результатов в тестах производительности программирования, а также поддержку вызова функций, что позволяет создавать высокоэффективных автономных агентов.
Встроенная поддержка системных подсказок – Gemma 4 представляет встроенную поддержку
systemроли, что позволяет вести более структурированные и контролируемые беседы.
Обзор моделей
Модели Gemma 4 разработаны для обеспечения производительности на передовом уровне для каждого размера, ориентируясь на сценарии развертывания от мобильных и периферийных устройств (E2B, E4B) до потребительских графических процессоров и рабочих станций (12B, 26B A4B, 31B). Они хорошо подходят для рассуждений, агентных рабочих процессов, программирования и многомодального понимания.
В моделях используется гибридный механизм внимания, который чередует локальное внимание с помощью скользящего окна с полным глобальным вниманием, гарантируя, что последний слой всегда является глобальным. Такая гибридная конструкция обеспечивает скорость обработки и низкое потребление памяти, характерные для легковесных моделей, без ущерба для глубокого понимания, необходимого для сложных задач с длинным контекстом. Для оптимизации памяти при работе с длинными контекстами глобальные слои используют унифицированные ключи и значения, а также применяют пропорциональное RoPE (p-RoPE).
Плотные модели
| Свойство | E2B | E4B | 12B Объединенный | 31B Плотный |
|---|---|---|---|---|
| Всего параметров | 2,3 млрд эффективных значений (5,1 млрд с учетом встраиваний) | 4,5 млрд эффективных значений (8 млрд с учетом встраивания) | 11.95B | 30.7Б |
| Слои | 35 | 42 | 48 | 60 |
| Раздвижное окно | 512 токенов | 512 токенов | 1024 токенов | 1024 токенов |
| Длина контекста | 128 тыс. токенов | 128 тыс. токенов | 256 тыс. токенов | 256 тыс. токенов |
| Размер словаря | 262K | 262K | 262K | 262K |
| Поддерживаемые режимы | Текст, изображение, аудио | Текст, изображение, аудио | Текст, изображение, аудио | Текст, Изображение |
| Параметры видеокодера | ~150М | ~150М | - | ~550М |
| Параметры аудиокодера | ~300М | ~300М | - | Нет звука |
Буква «E» в E2B и E4B означает «эффективные» параметры. В меньших моделях используются послойные встраивания (Per-Layer Embeddings, PLE) для максимальной эффективности параметров при развертывании на устройстве. Вместо добавления дополнительных слоев или параметров к модели, PLE предоставляет каждому слою декодера собственное небольшое встраивание для каждого токена. Эти таблицы встраивания большие, но используются только для быстрого поиска, поэтому количество эффективных параметров значительно меньше общего.
В названии Gemma 4 12B Unified присутствует слово «Unified», указывающее на отсутствие кодировщиков в архитектуре. Другие модели Gemma 4 используют выделенные кодировщики для обработки мультимодальных данных перед передачей их в LLM. Gemma 4 12B полностью исключает эти кодировщики, проецируя необработанные фрагменты изображений и аудиоволны непосредственно в пространство встраивания LLM через легковесные линейные слои. Такой унифицированный подход означает, что все модальности поступают непосредственно в один трансформатор, состоящий только из декодера, что снижает мультимодальную задержку и позволяет выполнить тонкую настройку всей модели за один проход.
Модель смешанного экспертного мнения (MoE)
| Свойство | 26B A4B MoE |
|---|---|
| Всего параметров | 25.2Б |
| Активные параметры | 3.8Б |
| Слои | 30 |
| Раздвижное окно | 1024 токенов |
| Длина контекста | 256 тыс. токенов |
| Размер словаря | 262K |
| Количество экспертов | 8 активных / 128 всего и 1 общий |
| Поддерживаемые режимы | Текст, Изображение |
| Параметры видеокодера | ~550М |
Буква «А» в обозначении 26B A4B означает «активные параметры», в отличие от общего числа параметров модели. Активируя только 4B подмножество параметров во время вывода, модель Mixture-of-Experts работает намного быстрее, чем можно было бы предположить, исходя из её общего количества в 26B параметров. Это делает её отличным выбором для быстрого вывода по сравнению с плотной моделью с 31B параметрами, поскольку она работает почти так же быстро, как модель с 4B параметрами.
Результаты сравнительных тестов
Эти модели были протестированы на большом количестве различных наборов данных и метрик, охватывающих разные аспекты генерации текста. Результаты оценки, отмеченные в таблице, относятся к моделям, настроенным на основе инструкций.
| Джемма 4 31Б | Джемма 4 26B A4B | Джемма 4 12B Объединенный | Джемма 4 E4B | Джемма 4 E2B | Джемма 3 27B (не думаю) | |
|---|---|---|---|---|---|---|
| MMLU Pro | 85,2% | 82,6% | 77,2% | 69,4% | 60,0% | 67,6% |
| AIME 2026 без инструментов | 89,2% | 88,3% | 77,5% | 42,5% | 37,5% | 20,8% |
| LiveCodeBench v6 | 80,0% | 77,1% | 72,0% | 52,0% | 44,0% | 29,1% |
| ЭЛО Codeforces | 2150 | 1718 | 1659 | 940 | 633 | 110 |
| GPQA Diamond | 84,3% | 82,3% | 78,8% | 58,6% | 43,4% | 42,4% |
| Тау2 (среднее значение за 3 года) | 76,9% | 68,2% | 69,0% | 42,2% | 24,5% | 16,2% |
| HLE без инструментов | 19,5% | 8,7% | 5,2% | - | - | - |
| HLE с поиском | 26,5% | 17,2% | - | - | - | - |
| BigBench Extra Hard | 74,4% | 64,8% | 53,0% | 33,1% | 21,9% | 19,3% |
| МММЛУ | 88,4% | 86,3% | 83,4% | 76,6% | 67,4% | 70,7% |
| Зрение | ||||||
| MMMU Pro | 76,9% | 73,8% | 69,1% | 52,6% | 44,2% | 49,7% |
| OmniDocBench 1.5 (среднее расстояние редактирования, чем меньше, тем лучше) | 0.131 | 0,149 | 0,164 | 0.181 | 0,290 | 0,365 |
| MATH-Vision | 85,6% | 82,4% | 79,7% | 59,5% | 52,4% | 46,0% |
| MedXPertQA MM | 61,3% | 58,1% | 48,7% | 28,7% | 23,5% | - |
| Аудио | ||||||
| CoVoST | - | - | 38.5 | 35.54 | 33.47 | - |
| ФЛЁРС (чем ниже, тем лучше) | - | - | 0,069 | 0,08 | 0,09 | - |
| Длинный контекст | ||||||
| MRCR v2 8 игл 128 тыс. (в среднем) | 66,4% | 44,1% | 43,4% | 25,4% | 19,1% | 13,5% |
Основные возможности
Модели Gemma 4 справляются с широким спектром задач, связанных с текстом, изображением и звуком. Ключевые возможности включают в себя:
- Мышление – Встроенный режим рассуждения, позволяющий модели пошагово обдумывать ответ.
- Длинный контекст – контекстные окна объемом до 128 тыс. токенов (E2B/E4B) и 256 тыс. токенов (12B/26B A4B/31B).
- Обработка изображений : обнаружение объектов, анализ документов/PDF-файлов, понимание экрана и пользовательского интерфейса, понимание диаграмм, оптическое распознавание символов (включая многоязычное), распознавание рукописного ввода и указание пальцем. Изображения могут обрабатываться с различными соотношениями сторон и разрешениями.
- Понимание видео — анализ видео путем обработки последовательности кадров.
- Чередующийся мультимодальный ввод — свободно смешивайте текст и изображения в любом порядке в рамках одного запроса.
- Вызов функций – встроенная поддержка структурированного использования инструментов, позволяющая создавать рабочие процессы с участием агентов.
- Программирование – генерация, дополнение и исправление кода.
- Многоязычность – поддержка более 35 языков «из коробки», предварительно обучена на более чем 140 языках.
- Аудио (только для E2B, E4B и 12B Unified) – автоматическое распознавание речи (ASR) и перевод речи в текст на нескольких языках.
Передовые методы
Для достижения наилучших результатов используйте следующие конфигурации и рекомендации:
1. Параметры выборки
Для всех вариантов использования следует применять следующую стандартизированную конфигурацию выборки:
-
temperature=1.0 -
top_p=0.95 -
top_k=64
2. Настройка режима мышления
В отличие от Gemma 3, в этих моделях используются стандартные роли system , assistant и user . Для корректного управления мыслительным процессом используйте следующие управляющие токены:
- Запуск мыслительного процесса: Мышление включается добавлением токена
<|think|>в начало системной подсказки. Чтобы отключить мышление, удалите токен. - Стандартная генерация: Если включено логическое мышление, модель выведет свои внутренние рассуждения, а затем окончательный ответ, используя следующую структуру:
<|channel>thought\n[Внутренние рассуждения]<channel|> - Нарушение мыслительного процесса: Для всех моделей, кроме вариантов E2B и E4B, если мышление отключено, модель все равно будет генерировать теги, но с пустым блоком мыслей:
<|channel>thought\n<channel|>[Окончательный ответ]
Обратите внимание, что многие библиотеки, такие как Transformers и llama.cpp, берут на себя сложные задачи, связанные с шаблонами чата.
3. Многоэтапные беседы
- В истории не должно быть никаких размышлений : в многоэтапных диалогах результаты работы модели должны включать только окончательный ответ. Мысли, высказанные в предыдущих раундах модели , не должны добавляться до начала следующего раунда пользователя.
4. Порядок модальностей
Для оптимальной работы с многомодальными входными данными разместите:
- В задании перед текстом должно быть изображение.
- Аудиоконтент следует за текстом в вашем запросе.
5. Переменное разрешение изображения
Помимо изменяемого соотношения сторон, Gemma 4 поддерживает переменное разрешение изображения за счет настраиваемого бюджета визуальных токенов, который контролирует количество токенов, используемых для представления изображения. Больший бюджет токенов сохраняет больше визуальных деталей за счет дополнительных вычислительных ресурсов, в то время как меньший бюджет обеспечивает более быструю обработку для задач, не требующих детального понимания.
- Поддерживаемые бюджеты токенов: 70 , 140 , 280 , 560 и 1120 .
- Используйте меньшие бюджеты для классификации, создания подписей или анализа видео, где более быстрая обработка и вывод информации из большого количества кадров важнее, чем детальная проработка.
- Для таких задач, как оптическое распознавание символов, анализ документов или чтение мелкого текста, следует выделять больше средств .
6. Аудио
Для обработки звука используйте следующие структуры подсказок:
- Распознавание речи по аудио (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- Автоматический перевод речи (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. Длительность аудио- и видеоматериалов
Все модели поддерживают ввод изображений и могут обрабатывать видео как кадры, а модели E2B, E4B и 12B также поддерживают ввод аудио. Максимальная продолжительность аудиозаписи составляет 30 секунд. Максимальная продолжительность видеозаписи составляет 60 секунд при условии обработки изображений со скоростью один кадр в секунду.
Модель данных
Данные, использованные для обучения модели, и способ их обработки.
обучающий набор данных
Наш предварительный обучающий набор данных представляет собой крупномасштабную, разнообразную коллекцию данных, охватывающую широкий спектр областей и форматов, включая веб-документы, код, изображения, аудио, с датой окончания сбора данных в январе 2025 года. Вот основные компоненты:
- Веб-документы : Разнообразная коллекция веб-текстов обеспечивает модели доступ к широкому спектру лингвистических стилей, тем и лексики. Обучающий набор данных включает контент более чем на 140 языках.
- Код : Ознакомление модели с кодом помогает ей изучить синтаксис и шаблоны языков программирования, что улучшает ее способность генерировать код и понимать вопросы, связанные с кодом.
- Математика : Обучение на основе математических текстов помогает модели освоить логическое мышление, символическое представление и умение отвечать на математические вопросы.
- Изображения : Широкий спектр изображений позволяет модели выполнять задачи анализа изображений и извлечения визуальных данных.
Сочетание этих разнообразных источников данных имеет решающее значение для обучения мощной мультимодальной модели, способной обрабатывать широкий спектр различных задач и форматов данных.
Предварительная обработка данных
Ниже представлены основные методы очистки и фильтрации данных, примененные к обучающим данным:
- Фильтрация материалов, содержащих материалы сексуального характера, касающиеся детей (CSAM ): На нескольких этапах подготовки данных применялась строгая фильтрация CSAM (материалов, содержащих материалы сексуального характера, касающиеся детей), чтобы исключить вредоносный и незаконный контент.
- Фильтрация конфиденциальных данных : Для обеспечения безопасности и надежности предварительно обученных моделей Gemma использовались автоматизированные методы для фильтрации определенной личной информации и других конфиденциальных данных из обучающих наборов.
- Дополнительные методы : Фильтрация на основе качества и безопасности контента в соответствии с нашей политикой .
Этика и безопасность
Поскольку открытые модели становятся центральным элементом корпоративной инфраструктуры, происхождение данных и безопасность приобретают первостепенное значение. Разработанная Google DeepMind, модель Gemma 4 проходит те же строгие проверки безопасности, что и наши собственные модели Gemini.
Подход к оценке
Модели Gemma 4 были разработаны в сотрудничестве с внутренними командами по безопасности и ответственному использованию ИИ. Для повышения безопасности моделей был проведен ряд автоматизированных и ручных оценок. Эти оценки соответствуют принципам ИИ Google , а также политике безопасности, направленной на предотвращение создания вредоносного контента нашими генеративными моделями ИИ, включая:
- Контент, связанный с материалами о сексуальном насилии и эксплуатации детей.
- Опасный контент (например, пропаганда самоубийства или обучение действиям, которые могут причинить вред в реальной жизни).
- Содержит материалы откровенно сексуального характера.
- Язык ненависти (например, дегуманизация членов защищаемых групп)
- Преследование (например, подстрекательство к насилию в отношении людей)
Результаты оценки
Во всех областях тестирования безопасности мы наблюдали значительные улучшения во всех категориях безопасности контента по сравнению с предыдущими моделями Gemma. В целом, модели Gemma 4 значительно превосходят модели Gemma 3 и 3n по повышению безопасности, при этом сохраняя низкий уровень необоснованных отказов. Все тестирование проводилось без фильтров безопасности для оценки возможностей и поведения модели. Как для преобразования текста в текст, так и для преобразования изображений в текст, и для всех размеров модели, модель показала минимальное количество нарушений правил и продемонстрировала значительные улучшения по сравнению с производительностью предыдущих моделей Gemma.
Использование и ограничения
Эти модели имеют определенные ограничения, о которых пользователям следует знать.
Назначение
Мультимодальные модели (способные обрабатывать визуальную, языковую и/или звуковую информацию) имеют широкий спектр применения в различных отраслях и областях. Приведенный ниже список потенциальных применений не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели моделей рассматривали в процессе обучения и разработки моделей.
- Создание и распространение контента
- Генерация текста : Эти модели можно использовать для создания креативных текстовых форматов, таких как стихи, сценарии, код, маркетинговые тексты и черновики электронных писем.
- Чат-боты и разговорный ИИ : обеспечивают работу разговорных интерфейсов для обслуживания клиентов, виртуальных помощников или интерактивных приложений.
- Резюмирование текста : Создание кратких резюме текстовых корпусов, научных работ или отчетов.
- Извлечение данных из изображений : Эти модели могут использоваться для извлечения, интерпретации и обобщения визуальных данных для текстовых сообщений.
- Обработка звука и взаимодействие : Модели E2B, E4B и 12B могут анализировать и интерпретировать аудиовходы, обеспечивая голосовое взаимодействие и транскрипцию.
- Исследования и образование
- Исследования в области обработки естественного языка (NLP) и виртуальных языковых моделей (VLM) : Эти модели могут служить основой для экспериментов исследователей с методами VLM и NLP, разработки алгоритмов и внесения вклада в развитие данной области.
- Инструменты для изучения языка : поддерживают интерактивный процесс изучения языка, помогают в исправлении грамматических ошибок или предоставляют возможности для практики письма.
- Исследование знаний : Оказание помощи исследователям в изучении больших объемов текста путем составления резюме или ответа на вопросы по конкретным темам.
Ограничения
- обучающие данные
- Качество и разнообразие обучающих данных существенно влияют на возможности модели. Предвзятость или пробелы в обучающих данных могут привести к ограничениям в результатах работы модели.
- Объем обучающего набора данных определяет предметные области, которые модель может эффективно обрабатывать.
- Контекст и сложность задачи
- Модели хорошо справляются с задачами, которые можно сформулировать с помощью четких подсказок и инструкций. Задачи с открытым концом или очень сложные задачи могут представлять собой серьезную проблему.
- На производительность модели может влиять объем предоставленного контекста (более длинный контекст, как правило, приводит к лучшим результатам, до определенного момента).
- Языковая неоднозначность и нюансы
- Естественный язык по своей природе сложен. Модели могут испытывать трудности с пониманием тонких нюансов, сарказма или образных выражений.
- Фактическая точность
- Модели генерируют ответы на основе информации, полученной из обучающих наборов данных, но они не являются базами знаний. Они могут выдавать неверные или устаревшие фактические утверждения.
- Здравый смысл
- Модели опираются на статистические закономерности в языке. В некоторых ситуациях им может не хватать способности применять здравый смысл.
Этические соображения и риски
Разработка моделей визуально-языкового восприятия (ВЛВ) вызывает ряд этических проблем. При создании открытой модели мы тщательно рассмотрели следующие аспекты:
- Предвзятость и справедливость
- Модели VLM, обученные на больших объемах реальных текстовых и графических данных, могут отражать социокультурные предубеждения, заложенные в обучающем материале. Модели Gemma 4 прошли тщательную проверку, предварительную обработку входных данных и оценку после обучения, как указано в этой карточке, чтобы помочь снизить риск возникновения таких предубеждений.
- Дезинформация и злоупотребление
- VLM-ы могут быть использованы не по назначению для создания текста, который является ложным, вводящим в заблуждение или вредным.
- Рекомендации по ответственному использованию модели приведены в руководстве «Responsible Generative AI Toolkit» .
- Прозрачность и подотчетность
- Данная карточка модели содержит подробную информацию об архитектуре, возможностях, ограничениях и процессах оценки моделей.
- Ответственно разработанная открытая модель предоставляет возможность делиться инновациями, делая технологию VLM доступной для разработчиков и исследователей во всей экосистеме искусственного интеллекта.
Выявленные риски и меры по их смягчению :
- Создание вредоносного контента : механизмы и рекомендации по обеспечению безопасности контента имеют важное значение. Разработчикам рекомендуется проявлять осторожность и внедрять соответствующие меры защиты контента в соответствии с политикой конкретного продукта и сценариями его использования.
- Злоупотребление в злонамеренных целях : технические ограничения, а также обучение разработчиков и конечных пользователей могут помочь предотвратить злонамеренное использование виртуальных библиотек. Предоставляются образовательные ресурсы и механизмы отчетности, позволяющие пользователям сообщать о случаях злоупотребления.
- Нарушения конфиденциальности : Модели обучались на данных, отфильтрованных для удаления определенной личной информации и других конфиденциальных данных. Разработчикам рекомендуется соблюдать правила конфиденциальности, используя методы, обеспечивающие защиту персональных данных.
- Увековечивание предвзятости : Рекомендуется проводить непрерывный мониторинг (с использованием оценочных метрик, экспертной оценки) и изучать методы устранения предвзятости во время обучения модели, тонкой настройки и других сценариев использования.
Преимущества
На момент выпуска это семейство моделей предоставляет высокопроизводительные реализации моделей открытого языка компьютерного зрения, разработанные с нуля для ответственной разработки ИИ, по сравнению с моделями аналогичного размера.