Выпущена версия Gemma 4 с возможностью ввода текста, аудио и изображений, а также с контекстным окном длиной до 256 КБ! Узнайте больше.

Эта страница переведена с помощью Cloud Translation API.

Модель карточки Gemma 4

Баннер Джеммы 4

Обнимающее лицо | GitHub | Запуск блога | Документация
Лицензия : Apache 2.0 | Авторы : Google DeepMind

Gemma — это семейство открытых моделей, разработанных Google DeepMind. Модели Gemma 4 являются мультимодальными, обрабатывая текстовый и графический ввод (с поддержкой аудио в моделях E2B, E4B и 12B) и генерируя текстовый вывод. Этот релиз включает модели с открытыми весами как в предварительно обученном, так и в оптимизированном по инструкциям варианте. Gemma 4 имеет контекстное окно до 256 000 токенов и поддерживает многоязычность более чем на 140 языках.

Gemma 4, использующая как плотную (Dense), так и смешанную (Mixture-of-Experts, MoE) архитектуру, хорошо подходит для таких задач, как генерация текста, программирование и логическое мышление. Модели доступны в пяти различных размерах: E2B , E4B , 12B , 26B A4B и 31B . Разнообразие размеров позволяет развертывать их в средах от высокопроизводительных телефонов до ноутбуков и серверов, демократизируя доступ к передовым технологиям искусственного интеллекта.

Gemma 4 представляет ключевые возможности и архитектурные усовершенствования :

Рассуждение – Все модели этого семейства разработаны как высокоэффективные средства рассуждения с настраиваемыми режимами мышления.
Расширенные возможности мультимодальности – обработка текста, изображений с переменным соотношением сторон и разрешением (все модели), видео и аудио (доступно изначально в моделях E2B, E4B и 12B).
Разнообразные и эффективные архитектуры – предлагает варианты с высокой плотностью и смешанным составом экспертов (MoE) различных размеров для масштабируемого развертывания.
Оптимизировано для работы на устройстве — более компактные модели специально разработаны для эффективного локального выполнения на ноутбуках и мобильных устройствах.
Расширенное контекстное окно – в небольших моделях контекстное окно занимает 128 КБ, а в средних – 256 КБ.
Расширенные возможности программирования и работы с агентами — обеспечивает значительное улучшение результатов в тестах программирования, а также поддержку вызова функций, что позволяет создавать высокоэффективных автономных агентов.
Встроенная поддержка системных подсказок – Gemma 4 представляет встроенную поддержку system роли, что позволяет вести более структурированные и контролируемые беседы.

Обзор моделей

Модели Gemma 4 разработаны для обеспечения производительности на передовом уровне для каждого размера, ориентируясь на сценарии развертывания от мобильных и периферийных устройств (E2B, E4B) до потребительских графических процессоров и рабочих станций (12B, 26B A4B, 31B). Они хорошо подходят для рассуждений, агентных рабочих процессов, программирования и многомодального понимания.

В моделях используется гибридный механизм внимания, который чередует локальное внимание с помощью скользящего окна и полное глобальное внимание, гарантируя, что последний слой всегда будет глобальным. Такая гибридная конструкция обеспечивает скорость обработки и низкое потребление памяти, характерные для легковесных моделей, без ущерба для глубокого понимания, необходимого для сложных задач с длинным контекстом. Для оптимизации памяти при работе с длинными контекстами глобальные слои используют унифицированные ключи и значения, а также применяют пропорциональное RoPE (p-RoPE).

Плотные модели

Свойство	E2B	E4B	12B Объединенный	31B Плотный
Всего параметров	2,3 млрд эффективных значений (5,1 млрд с учетом встраивания)	4,5 млрд эффективных значений (8 млрд с учетом встраивания)	11.95B	30.7Б
Слои	35	42	48	60
Раздвижное окно	512 токенов	512 токенов	1024 токенов	1024 токенов
Длина контекста	128 тыс. токенов	128 тыс. токенов	256 тыс. токенов	256 тыс. токенов
Размер словаря	262K	262K	262K	262K
Поддерживаемые режимы	Текст, изображение, аудио	Текст, изображение, аудио	Текст, изображение, аудио	Текст, Изображение
Параметры видеокодера	~150М	~150М	-	~550М
Параметры аудиокодера	~300М	~300М	-	Нет звука

Буква «E» в E2B и E4B означает «эффективные» параметры. В меньших моделях используются послойные встраивания (Per-Layer Embeddings, PLE) для максимальной эффективности параметров при развертывании на устройстве. Вместо добавления дополнительных слоев или параметров к модели, PLE предоставляет каждому слою декодера собственное небольшое встраивание для каждого токена. Эти таблицы встраивания большие, но используются только для быстрого поиска, поэтому количество эффективных параметров значительно меньше общего.

В названии Gemma 4 12B Unified присутствует слово «Unified», указывающее на отсутствие кодировщиков в архитектуре. Другие модели Gemma 4 используют выделенные кодировщики для обработки мультимодальных данных перед передачей их в LLM. Gemma 4 12B полностью исключает эти кодировщики, проецируя необработанные фрагменты изображений и аудиоволны непосредственно в пространство встраивания LLM через облегченные линейные слои. Такой унифицированный подход означает, что все модальности поступают непосредственно в один трансформатор, состоящий только из декодера, что снижает мультимодальную задержку и позволяет выполнить тонкую настройку всей модели за один проход.

Модель смешанного экспертного мнения (MoE)

Свойство	26B A4B MoE
Всего параметров	25.2Б
Активные параметры	3.8Б
Слои	30
Раздвижное окно	1024 токенов
Длина контекста	256 тыс. токенов
Размер словаря	262K
Количество экспертов	8 активных / 128 всего и 1 общий
Поддерживаемые режимы	Текст, Изображение
Параметры видеокодера	~550М

Буква «А» в обозначении 26B A4B означает «активные параметры», в отличие от общего числа параметров модели. Активируя только 4B подмножество параметров во время вывода, модель Mixture-of-Experts работает намного быстрее, чем можно было бы предположить, исходя из её общего количества в 26B параметров. Это делает её отличным выбором для быстрого вывода по сравнению с плотной моделью с 31B параметрами, поскольку она работает почти так же быстро, как модель с 4B параметрами.

Результаты сравнительных тестов

Эти модели были протестированы на большом количестве различных наборов данных и метрик, охватывающих разные аспекты генерации текста. Результаты оценки, отмеченные в таблице, относятся к моделям, настроенным на основе инструкций.

	Джемма 4 31Б	Джемма 4 26B A4B	Джемма 4 12B Объединенный	Джемма 4 E4B	Джемма 4 E2B	Джемма 3 27B (не думаю)
MMLU Pro	85,2%	82,6%	77,2%	69,4%	60,0%	67,6%
AIME 2026 без инструментов	89,2%	88,3%	77,5%	42,5%	37,5%	20,8%
LiveCodeBench v6	80,0%	77,1%	72,0%	52,0%	44,0%	29,1%
ЭЛО Codeforces	2150	1718	1659	940	633	110
GPQA Diamond	84,3%	82,3%	78,8%	58,6%	43,4%	42,4%
Тау2 (среднее значение за 3 года)	76,9%	68,2%	69,0%	42,2%	24,5%	16,2%
HLE без инструментов	19,5%	8,7%	5,2%	-	-	-
HLE с поиском	26,5%	17,2%	-	-	-	-
BigBench Extra Hard	74,4%	64,8%	53,0%	33,1%	21,9%	19,3%
МММЛУ	88,4%	86,3%	83,4%	76,6%	67,4%	70,7%
Зрение
MMMU Pro	76,9%	73,8%	69,1%	52,6%	44,2%	49,7%
OmniDocBench 1.5 (среднее расстояние редактирования, чем меньше, тем лучше)	0.131	0,149	0,164	0.181	0,290	0,365
MATH-Vision	85,6%	82,4%	79,7%	59,5%	52,4%	46,0%
MedXPertQA MM	61,3%	58,1%	48,7%	28,7%	23,5%	-
Аудио
CoVoST	-	-	38,5 ^*	35.54	33.47	-
ФЛЁРС (чем ниже, тем лучше)	-	-	0,069 ^*	0,08	0,09	-
Длинный контекст
MRCR v2 8 игл 128 тыс. (в среднем)	66,4%	44,1%	43,4%	25,4%	19,1%	13,5%

^* За исключением китайского языка.

Основные возможности

Модели Gemma 4 справляются с широким спектром задач, связанных с текстом, изображением и звуком. Ключевые возможности включают в себя:

Мышление – Встроенный режим рассуждения, позволяющий модели пошагово обдумывать ответ.
Длинный контекст – контекстные окна объемом до 128 тыс. токенов (E2B/E4B) и 256 тыс. токенов (12B/26B A4B/31B).
Обработка изображений : обнаружение объектов, анализ документов/PDF-файлов, понимание экрана и пользовательского интерфейса, понимание диаграмм, оптическое распознавание символов (включая многоязычное), распознавание рукописного ввода и указание пальцем. Изображения могут обрабатываться с различными соотношениями сторон и разрешениями.
Понимание видео — анализ видео путем обработки последовательности кадров.
Чередующийся мультимодальный ввод — свободно смешивайте текст и изображения в любом порядке в рамках одного запроса.
Вызов функций – встроенная поддержка структурированного использования инструментов, позволяющая создавать рабочие процессы, управляемые агентами.
Программирование – генерация, дополнение и исправление кода.
Многоязычность – поддержка более 35 языков «из коробки», предварительно обучена на более чем 140 языках.
Аудио (только для E2B, E4B и 12B Unified) – автоматическое распознавание речи (ASR) и перевод речи в текст на нескольких языках.

Передовые методы

Для достижения наилучших результатов используйте следующие конфигурации и рекомендации:

1. Параметры выборки

Для всех вариантов использования следует применять следующую стандартизированную конфигурацию выборки:

temperature=1.0
top_p=0.95
top_k=64

2. Настройка режима мышления

В отличие от Gemma 3, в этих моделях используются стандартные роли system , assistant и user . Для корректного управления мыслительным процессом используйте следующие управляющие токены:

Запуск мыслительного процесса: Мышление включается добавлением токена <|think|> в начало системной подсказки. Чтобы отключить мышление, удалите токен.
Стандартная генерация: Если включено логическое мышление, модель выведет свои внутренние рассуждения, а затем окончательный ответ, используя следующую структуру: <|channel>thought\n [Внутренние рассуждения] <channel|>
Нарушение мыслительного процесса: Для всех моделей, кроме вариантов E2B и E4B, если мышление отключено, модель все равно будет генерировать теги, но с пустым блоком мыслей: <|channel>thought\n<channel|> [Окончательный ответ]

Обратите внимание, что многие библиотеки, такие как Transformers и llama.cpp, берут на себя сложные задачи, связанные с шаблонами чата.

3. Многоэтапные беседы

В истории не должно быть никаких размышлений : в многоэтапных диалогах в историю модели следует включать только окончательный ответ. Мысли из предыдущих ходов модели не должны добавляться до начала следующего хода пользователя, за исключением ходов вызова инструмента, где размышления должны сохраняться.

4. Порядок модальностей

Для оптимальной работы с многомодальными входными данными разместите:

В задании перед текстом должно быть изображение.
Аудиоконтент следует за текстом в вашем запросе.

5. Переменное разрешение изображения

Помимо изменяемого соотношения сторон, Gemma 4 поддерживает переменное разрешение изображения за счет настраиваемого бюджета визуальных токенов, который контролирует количество токенов, используемых для представления изображения. Больший бюджет токенов сохраняет больше визуальных деталей за счет дополнительных вычислительных ресурсов, в то время как меньший бюджет обеспечивает более быструю обработку для задач, не требующих детального понимания.

Поддерживаемые бюджеты токенов: 70 , 140 , 280 , 560 и 1120 .
- Используйте меньшие бюджеты для классификации, создания подписей или анализа видео, где более быстрая обработка и вывод информации с большого количества кадров важнее, чем детальная проработка.
- Для таких задач, как оптическое распознавание текста, анализ документов или чтение мелкого текста, следует выделять больше средств .

6. Аудио

Для обработки звука используйте следующие структуры подсказок:

Распознавание речи по аудио (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Автоматический перевод речи (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Длительность аудио- и видеоматериалов

Все модели поддерживают ввод изображений и могут обрабатывать видео как кадры, а модели E2B, E4B и 12B также поддерживают ввод аудио. Максимальная продолжительность аудиозаписи составляет 30 секунд. Максимальная продолжительность видеозаписи составляет 60 секунд при условии обработки изображений со скоростью один кадр в секунду.

Модель данных

Данные, использованные для обучения модели, и способ их обработки.

обучающий набор данных

Наш предварительный обучающий набор данных представляет собой крупномасштабную, разнообразную коллекцию данных, охватывающую широкий спектр областей и форматов, включая веб-документы, код, изображения, аудио, с датой окончания сбора данных в январе 2025 года. Вот основные компоненты:

Веб-документы : Разнообразная коллекция веб-текстов обеспечивает модели доступ к широкому спектру лингвистических стилей, тем и лексики. Обучающий набор данных включает контент более чем на 140 языках.
Код : Ознакомление модели с кодом помогает ей изучить синтаксис и шаблоны языков программирования, что улучшает ее способность генерировать код и понимать вопросы, связанные с кодом.
Математика : Обучение на основе математических текстов помогает модели освоить логическое мышление, символическое представление и умение отвечать на математические вопросы.
Изображения : Широкий спектр изображений позволяет модели выполнять задачи анализа изображений и извлечения визуальных данных.

Сочетание этих разнообразных источников данных имеет решающее значение для обучения мощной мультимодальной модели, способной обрабатывать широкий спектр различных задач и форматов данных.

Предварительная обработка данных

Ниже представлены основные методы очистки и фильтрации данных, примененные к обучающим данным:

Фильтрация материалов, содержащих материалы сексуального характера, касающиеся детей (CSAM ): На нескольких этапах подготовки данных применялась строгая фильтрация CSAM (материалов, содержащих материалы сексуального характера, касающиеся детей), чтобы исключить вредоносный и незаконный контент.
Фильтрация конфиденциальных данных : Для обеспечения безопасности и надежности предварительно обученных моделей Gemma использовались автоматизированные методы для фильтрации определенной личной информации и других конфиденциальных данных из обучающих наборов.
Дополнительные методы : Фильтрация на основе качества и безопасности контента в соответствии с нашей политикой .

Этика и безопасность

Поскольку открытые модели становятся центральным элементом корпоративной инфраструктуры, происхождение данных и безопасность приобретают первостепенное значение. Разработанная Google DeepMind, модель Gemma 4 проходит те же строгие проверки безопасности, что и наши собственные модели Gemini.

Подход к оценке

Модели Gemma 4 были разработаны в сотрудничестве с внутренними командами по безопасности и ответственному использованию ИИ. Для повышения безопасности моделей был проведен ряд автоматизированных и ручных оценок. Эти оценки соответствуют принципам ИИ Google , а также политике безопасности, направленной на предотвращение создания вредоносного контента нашими генеративными моделями ИИ, включая:

Контент, связанный с материалами о сексуальном насилии и эксплуатации детей.
Опасный контент (например, пропаганда самоубийства или обучение действиям, которые могут причинить вред в реальной жизни).
Содержит материалы откровенно сексуального характера.
Язык ненависти (например, дегуманизация членов защищаемых групп)
Преследование (например, подстрекательство к насилию в отношении людей)

Результаты оценки

Во всех областях тестирования безопасности мы наблюдали значительные улучшения во всех категориях безопасности контента по сравнению с предыдущими моделями Gemma. В целом, модели Gemma 4 значительно превосходят модели Gemma 3 и 3n по повышению безопасности, при этом сохраняя низкий уровень необоснованных отказов. Все тестирование проводилось без фильтров безопасности для оценки возможностей и поведения модели. Как для преобразования текста в текст, так и для преобразования изображений в текст, и для всех размеров модели, модель показала минимальное количество нарушений правил и продемонстрировала значительные улучшения по сравнению с производительностью предыдущих моделей Gemma.

Использование и ограничения

Эти модели имеют определенные ограничения, о которых пользователям следует знать.

Назначение

Мультимодальные модели (способные обрабатывать визуальную, языковую и/или звуковую информацию) имеют широкий спектр применения в различных отраслях и областях. Приведенный ниже список потенциальных применений не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели моделей рассматривали в процессе обучения и разработки моделей.

Создание и распространение контента
- Генерация текста : Эти модели можно использовать для создания креативных текстовых форматов, таких как стихи, сценарии, код, маркетинговые тексты и черновики электронных писем.
- Чат-боты и разговорный ИИ : обеспечивают работу разговорных интерфейсов для обслуживания клиентов, виртуальных помощников или интерактивных приложений.
- Резюмирование текста : Создание кратких резюме текстовых корпусов, научных работ или отчетов.
- Извлечение данных из изображений : Эти модели могут использоваться для извлечения, интерпретации и обобщения визуальных данных для текстовых сообщений.
- Обработка звука и взаимодействие : Модели E2B, E4B и 12B могут анализировать и интерпретировать аудиовходы, обеспечивая голосовое взаимодействие и транскрипцию.
Исследования и образование
- Исследования в области обработки естественного языка (NLP) и виртуальных моделей речи (VLM) : Эти модели могут служить основой для экспериментов исследователей с методами VLM и NLP, разработки алгоритмов и внесения вклада в развитие данной области.
- Инструменты для изучения языка : поддерживают интерактивный процесс изучения языка, помогают в исправлении грамматических ошибок или предоставляют возможности для практики письма.
- Исследование знаний : Оказание помощи исследователям в изучении больших объемов текста путем составления резюме или ответа на вопросы по конкретным темам.

Ограничения

обучающие данные
- Качество и разнообразие обучающих данных существенно влияют на возможности модели. Предвзятость или пробелы в обучающих данных могут привести к ограничениям в результатах работы модели.
- Объем обучающего набора данных определяет предметные области, которые модель может эффективно обрабатывать.
Контекст и сложность задачи
- Модели хорошо справляются с задачами, которые можно сформулировать с помощью четких подсказок и инструкций. Задачи с открытым концом или очень сложные задачи могут представлять собой серьезную проблему.
- На производительность модели может влиять объем предоставленного контекста (более длинный контекст, как правило, приводит к лучшим результатам, до определенного момента).
Языковая неоднозначность и нюансы
- Естественный язык по своей природе сложен. Модели могут испытывать трудности с пониманием тонких нюансов, сарказма или образных выражений.
Фактическая точность
- Модели генерируют ответы на основе информации, полученной из обучающих наборов данных, но они не являются базами знаний. Они могут выдавать неверные или устаревшие фактические утверждения.
Здравый смысл
- Модели опираются на статистические закономерности в языке. В некоторых ситуациях им может не хватать способности применять здравый смысл.

Этические соображения и риски

Разработка моделей визуально-языкового восприятия (ВЛВ) вызывает ряд этических проблем. При создании открытой модели мы тщательно рассмотрели следующие аспекты:

Предвзятость и справедливость
- Модели VLM, обученные на больших объемах реальных текстовых и графических данных, могут отражать социокультурные предубеждения, заложенные в обучающем материале. Модели Gemma 4 прошли тщательную проверку, предварительную обработку входных данных и оценку после обучения, как указано в этой карточке, чтобы снизить риск возникновения таких предубеждений.
Дезинформация и злоупотребление
- VLM-ы могут быть использованы не по назначению для создания текста, который является ложным, вводящим в заблуждение или вредным.
- Рекомендации по ответственному использованию модели приведены в руководстве «Responsible Generative AI Toolkit» .
Прозрачность и подотчетность
- Данная карточка модели содержит подробную информацию об архитектуре, возможностях, ограничениях и процессах оценки моделей.
- Ответственно разработанная открытая модель предоставляет возможность делиться инновациями, делая технологию VLM доступной для разработчиков и исследователей во всей экосистеме искусственного интеллекта.

Выявленные риски и меры по их смягчению :

Создание вредоносного контента : механизмы и рекомендации по обеспечению безопасности контента имеют важное значение. Разработчикам рекомендуется проявлять осторожность и внедрять соответствующие меры защиты контента в соответствии с политикой конкретного продукта и сценариями его использования.
Злоупотребление в злонамеренных целях : технические ограничения, а также обучение разработчиков и конечных пользователей могут помочь предотвратить злонамеренное использование виртуальных библиотек. Предоставляются образовательные ресурсы и механизмы отчетности, позволяющие пользователям сообщать о случаях злоупотребления.
Нарушения конфиденциальности : Модели обучались на данных, отфильтрованных для удаления определенной личной информации и других конфиденциальных данных. Разработчикам рекомендуется соблюдать правила конфиденциальности, используя методы, обеспечивающие защиту персональных данных.
Увековечивание предвзятости : Рекомендуется проводить непрерывный мониторинг (с использованием оценочных метрик, экспертной оценки) и изучать методы устранения предвзятости во время обучения модели, тонкой настройки и других сценариев использования.

Преимущества

На момент выпуска это семейство моделей предоставляет высокопроизводительные реализации моделей открытого языка компьютерного зрения, разработанные с нуля для ответственной разработки ИИ, по сравнению с моделями аналогичного размера.