Страница модели : Джемма
Ресурсы и техническая документация :
- Технический отчет Джеммы 3
- Инструментарий ответственного генеративного искусственного интеллекта
- Джемма на Kaggle
- Джемма в модельном саду Vertex
Условия использования : Условия
Авторы : Google DeepMind.
Информация о модели
Краткое описание и краткое определение входов и выходов.
Описание
Gemma — это семейство легких современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались при создании моделей Gemini. Модели Gemma 3 являются мультимодальными, обрабатывают ввод текста и изображений и генерируют текстовый вывод с открытыми весами как для предварительно обученных вариантов, так и для вариантов, настроенных с помощью инструкций. Gemma 3 имеет большое контекстное окно размером 128 КБ, многоязычную поддержку более чем на 140 языках и доступна в большем размере, чем предыдущие версии. Модели Gemma 3 хорошо подходят для различных задач по генерации текста и распознаванию изображений, включая ответы на вопросы, обобщение и рассуждение. Их относительно небольшой размер позволяет развертывать их в средах с ограниченными ресурсами, таких как ноутбуки, настольные компьютеры или собственная облачная инфраструктура, демократизируя доступ к современным моделям искусственного интеллекта и помогая стимулировать инновации для всех.
Входы и выходы
Вход:
- Текстовая строка, например вопрос, подсказка или документ, который нужно суммировать.
- Изображения, нормализованные до разрешения 896 x 896 и закодированные до 256 токенов каждое.
- Общий входной контекст: 128 000 токенов для размеров 4B, 12B и 27B и 32 000 токенов для размера 1B.
Выход:
- Сгенерированный текст в ответ на ввод, например ответ на вопрос, анализ содержимого изображения или краткое изложение документа.
- Общий выходной контекст до 128 000 токенов для размеров 4 Б, 12 Б и 27 Б и 32 000 токенов для размера 1 Б на запрос, за вычетом входных токенов запроса.
Цитирование
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
Данные модели
Данные, используемые для обучения модели, и способ обработки данных.
Набор обучающих данных
Эти модели были обучены на наборе текстовых данных, включающем широкий спектр источников. Модель 27B была обучена на 14 триллионах токенов, модель 12B — на 12 триллионах токенов, модель 4B — на 4 триллионах токенов и модель 1B — на 2 триллионах токенов. Датой окончания сбора данных для обучения был август 2024 года. Вот ключевые компоненты:
- Веб-документы: разнообразная коллекция веб-текста гарантирует, что модель будет доступна для широкого спектра лингвистических стилей, тем и словаря. Набор обучающих данных включает контент на более чем 140 языках.
- Код. Представление модели в коде помогает ей изучить синтаксис и шаблоны языков программирования, что улучшает ее способность генерировать код и понимать вопросы, связанные с кодом.
- Математика: Обучение математическому тексту помогает модели научиться логическим рассуждениям, символическому представлению и решению математических запросов.
- Изображения. Широкий диапазон изображений позволяет модели выполнять анализ изображений и задачи извлечения визуальных данных.
Сочетание этих разнообразных источников данных имеет решающее значение для обучения мощной мультимодальной модели, которая может обрабатывать широкий спектр различных задач и форматов данных.
Предварительная обработка данных
Вот ключевые методы очистки и фильтрации данных, применяемые к обучающим данным:
- Фильтрация CSAM: строгая фильтрация CSAM (материалов о сексуальном насилии над детьми) применялась на нескольких этапах процесса подготовки данных, чтобы гарантировать исключение вредного и незаконного контента.
- Фильтрация конфиденциальных данных. Чтобы сделать предварительно обученные модели Gemma безопасными и надежными, использовались автоматизированные методы для фильтрации определенной личной информации и других конфиденциальных данных из обучающих наборов.
- Дополнительные методы: Фильтрация по качеству и безопасности контента в соответствии с нашими политиками .
Информация о реализации
Подробности о внутреннем устройстве модели.
Аппаратное обеспечение
Джемма обучалась с использованием аппаратного обеспечения тензорного процессора (TPU) (TPUv4p, TPUv5p и TPUv5e). Обучение моделей визуального языка (VLMS) требует значительных вычислительных мощностей. TPU, разработанные специально для матричных операций, распространенных в машинном обучении, предлагают в этой области несколько преимуществ:
- Производительность: TPU специально разработаны для выполнения огромных вычислений, связанных с обучением VLM. Они могут значительно ускорить обучение по сравнению с процессорами.
- Память: TPU часто оснащены большим объемом памяти с высокой пропускной способностью, что позволяет обрабатывать большие модели и пакеты во время обучения. Это может привести к улучшению качества модели.
- Масштабируемость: модули TPU (большие кластеры TPU) предоставляют масштабируемое решение для обработки растущей сложности больших моделей фундамента. Вы можете распределить обучение между несколькими устройствами TPU для более быстрой и эффективной обработки.
- Экономическая эффективность. Во многих сценариях TPU могут обеспечить более экономичное решение для обучения больших моделей по сравнению с инфраструктурой на базе ЦП, особенно если учесть время и ресурсы, сэкономленные за счет более быстрого обучения.
- Эти преимущества соответствуют обязательствам Google работать устойчиво .
Программное обеспечение
Обучение проводилось с использованием JAX и ML Pathways .
JAX позволяет исследователям использовать преимущества оборудования последнего поколения, включая TPU, для более быстрого и эффективного обучения больших моделей. ML Pathways — это последняя попытка Google создать системы искусственного интеллекта, способные обобщать решение нескольких задач. Это особенно подходит для базовых моделей, включая такие большие языковые модели, как эта.
Вместе JAX и ML Pathways используются, как описано в статье о семействе моделей Gemini ; «Модель программирования Jax и Pathways с «единым контроллером» позволяет одному процессу Python управлять всем процессом обучения, значительно упрощая рабочий процесс разработки».
Оценка
Метрики и результаты оценки модели.
Результаты тестов
Эти модели оценивались на основе большой коллекции различных наборов данных и показателей, охватывающих различные аспекты генерации текста. Результаты оценки, отмеченные значком IT , относятся к моделям, настроенным по инструкциям. Результаты оценки, отмеченные PT, относятся к предварительно обученным моделям.
Рассуждения и факты
Контрольный показатель | n-выстрел | Джемма 3 ИТ 1Б | Джемма 3 ИТ 4Б | Джемма 3 ИТ 12Б | Джемма 3 ИТ 27Б |
---|---|---|---|---|---|
GPQA Бриллиант | 0 выстрелов | 19.2 | 30,8 | 40,9 | 42,4 |
SimpleQA | 0 выстрелов | 2.2 | 4.0 | 6.3 | 10,0 |
ФАКТЫ Заземление | - | 36,4 | 70,1 | 75,8 | 74,9 |
BIG-Жесткая скамейка | 0 выстрелов | 39,1 | 72,2 | 85,7 | 87,6 |
BIG-Скамья Extra Hard | 0 выстрелов | 7.2 | 11,0 | 16.3 | 19,3 |
IFEval | 0 выстрелов | 80,2 | 90,2 | 88,9 | 90,4 |
Контрольный показатель | n-выстрел | Джемма 3 PT 1B | Джемма 3 PT 4B | Джемма 3 PT 12B | Джемма 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10 выстрелов | 62,3 | 77,2 | 84,2 | 85,6 |
BoolQ | 0 выстрелов | 63,2 | 72,3 | 78,8 | 82,4 |
ПИКА | 0 выстрелов | 73,8 | 79,6 | 81,8 | 83,3 |
СоциальныеIQA | 0 выстрелов | 48,9 | 51,9 | 53,4 | 54,9 |
TriviaQA | 5 выстрелов | 39,8 | 65,8 | 78,2 | 85,5 |
Естественные вопросы | 5 выстрелов | 9.48 | 20,0 | 31,4 | 36,1 |
АРК-с | 25 выстрелов | 38,4 | 56,2 | 68,9 | 70,6 |
АРК-е | 0 выстрелов | 73,0 | 82,4 | 88,3 | 89,0 |
ВиноГранде | 5 выстрелов | 58,2 | 64,7 | 74,3 | 78,8 |
BIG-Жесткая скамейка | малозарядный | 28,4 | 50,9 | 72,6 | 77,7 |
УРОНИТЬ | 1 выстрел | 42,4 | 60,1 | 72,2 | 77,2 |
STEM и код
Контрольный показатель | n-выстрел | Джемма 3 ИТ 1Б | Джемма 3 ИТ 4Б | Джемма 3 ИТ 12Б | Джемма 3 ИТ 27Б |
---|---|---|---|---|---|
ММЛУ (Про) | 0 выстрелов | 14,7 | 43,6 | 60,6 | 67,5 |
LiveCodeBench | 0 выстрелов | 1,9 | 12,6 | 24,6 | 29,7 |
Bird-SQL (разработчик) | - | 6.4 | 36,3 | 47,9 | 54,4 |
Математика | 0 выстрелов | 48,0 | 75,6 | 83,8 | 89,0 |
СкрытаяМатематика | 0 выстрелов | 15,8 | 43,0 | 54,5 | 60,3 |
МБПП | 3 выстрела | 35,2 | 63,2 | 73,0 | 74,4 |
HumanEval | 0 выстрелов | 41,5 | 71,3 | 85,4 | 87,8 |
Natural2Code | 0 выстрелов | 56,0 | 70,3 | 80,7 | 84,5 |
GSM8K | 0 выстрелов | 62,8 | 89,2 | 94,4 | 95,9 |
Контрольный показатель | n-выстрел | Джемма 3 PT 4B | Джемма 3 PT 12B | Джемма 3 PT 27B |
---|---|---|---|---|
ММЛУ | 5 выстрелов | 59,6 | 74,5 | 78,6 |
ММЛУ (Про COT) | 5 выстрелов | 29,2 | 45,3 | 52,2 |
AGIEval | 3-5 выстрелов | 42,1 | 57,4 | 66,2 |
МАТЕМАТИКА | 4 выстрела | 24.2 | 43,3 | 50,0 |
GSM8K | 8-зарядный | 38,4 | 71,0 | 82,6 |
GPQA | 5 выстрелов | 15,0 | 25,4 | 24,3 |
МБПП | 3 выстрела | 46,0 | 60,4 | 65,6 |
HumanEval | 0 выстрелов | 36,0 | 45,7 | 48,8 |
Многоязычный
Контрольный показатель | n-выстрел | Джемма 3 ИТ 1Б | Джемма 3 ИТ 4Б | Джемма 3 ИТ 12Б | Джемма 3 ИТ 27Б |
---|---|---|---|---|---|
Глобальный-MMLU-Lite | 0 выстрелов | 34,2 | 54,5 | 69,5 | 75,1 |
ЭКЛЕКТИК | 0 выстрелов | 1,4 | 4.6 | 10.3 | 16,7 |
ВМТ24++ | 0 выстрелов | 35,9 | 46,8 | 51,6 | 53,4 |
Контрольный показатель | Джемма 3 PT 1B | Джемма 3 PT 4B | Джемма 3 PT 12B | Джемма 3 PT 27B |
---|---|---|---|---|
МГСМ | 2.04 | 34,7 | 64,3 | 74,3 |
Глобальный-MMLU-Lite | 24,9 | 57,0 | 69,4 | 75,7 |
WMT24++ (ХрФ) | 36,7 | 48,4 | 53,9 | 55,7 |
Флорес | 29,5 | 39,2 | 46,0 | 48,8 |
XQuAD (все) | 43,9 | 68,0 | 74,5 | 76,8 |
ЭКЛЕКТИК | 4,69 | 11,0 | 17.2 | 24,4 |
IndicGenBench | 41,4 | 57,2 | 61,7 | 63,4 |
Мультимодальный
Контрольный показатель | Джемма 3 ИТ 4Б | Джемма 3 ИТ 12Б | Джемма 3 ИТ 27Б |
---|---|---|---|
МММУ (вал) | 48,8 | 59,6 | 64,9 |
DocVQA | 75,8 | 87,1 | 86,6 |
ИнформацияVQA | 50,0 | 64,9 | 70,6 |
ТекстVQA | 57,8 | 67,7 | 65,1 |
AI2D | 74,8 | 84,2 | 84,5 |
ЧартQA | 68,8 | 75,7 | 78,0 |
VQAv2 (вал) | 62,4 | 71,6 | 71,0 |
MathVista (тестмини) | 50,0 | 62,9 | 67,6 |
Контрольный показатель | Джемма 3 PT 4B | Джемма 3 PT 12B | Джемма 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (вал) | 72,8 | 82,3 | 85,6 |
ИнфоВКА (вал) | 44,1 | 54,8 | 59,4 |
МММУ (пт) | 39,2 | 50,3 | 56,1 |
ТекстVQA (значение) | 58,9 | 66,5 | 68,6 |
RealWorldQA | 45,5 | 52,2 | 53,9 |
РеМИ | 27,3 | 38,5 | 44,8 |
AI2D | 63,2 | 75,2 | 79,0 |
ЧартQA | 63,6 | 74,7 | 76,3 |
VQAv2 | 63,9 | 71,2 | 72,9 |
МИГАЮТ | 38,0 | 35,9 | 39,6 |
ОКВКА | 51,0 | 58,7 | 60,2 |
TallyQA | 42,5 | 51,8 | 54,3 |
Пространственное чувство качества | 50,9 | 60,0 | 59,4 |
CountBenchQA | 26.1 | 17,8 | 68,0 |
Этика и безопасность
Подход и результаты оценки этики и безопасности.
Подход к оценке
Наши методы оценки включают структурированные оценки и внутреннее групповое тестирование соответствующих политик в отношении контента. «Красная команда» проводилась несколькими разными командами, каждая из которых преследовала разные цели и показатели человеческой оценки. Эти модели оценивались по ряду различных категорий, имеющих отношение к этике и безопасности, в том числе:
- Безопасность детей : оценка подсказок преобразования текста в текст и изображения в текст, охватывающих политику безопасности детей, включая сексуальное насилие и эксплуатацию детей.
- Безопасность контента: оценка подсказок преобразования текста в текст и изображения в текст, охватывающих политику безопасности, включая преследование, насилие и жестокость, а также разжигание ненависти.
- Репрезентативный вред : оценка подсказок преобразования текста в текст и изображения в текст, охватывающих политику безопасности, включая предвзятость, стереотипы, а также вредные ассоциации или неточности.
В дополнение к оценкам уровня развития мы проводим «оценки достоверности», которые представляют собой наши внутренние оценки «на расстоянии вытянутой руки» для принятия решений по управлению ответственностью. Они проводятся отдельно от команды разработчиков модели, чтобы обеспечить принятие решений о выпуске. Результаты высокого уровня передаются обратно команде моделирования, но наборы подсказок сохраняются, чтобы предотвратить переобучение и сохранить способность результатов влиять на принятие решений. Результаты проверки качества передаются нашему Совету по ответственности и безопасности в рамках проверки выпуска.
Результаты оценки
Во всех областях тестирования безопасности мы увидели значительные улучшения в категориях детской безопасности, безопасности контента и репрезентативного вреда по сравнению с предыдущими моделями Gemma. Все испытания проводились без фильтров безопасности для оценки возможностей и поведения модели. Как для преобразования текста в текст, так и для преобразования изображения в текст, а также для моделей всех размеров модель выявила минимальные нарушения политики и продемонстрировала значительные улучшения по сравнению с предыдущими моделями Gemma в отношении необоснованных выводов. Ограничением наших оценок было то, что они включали только подсказки на английском языке.
Использование и ограничения
Эти модели имеют определенные ограничения, о которых следует знать пользователям.
Предполагаемое использование
Модели открытого языка видения (VLM) имеют широкий спектр приложений в различных отраслях и областях. Следующий список потенциальных применений не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели модели рассматривали как часть обучения и разработки модели.
- Создание контента и коммуникация
- Генерация текста. Эти модели можно использовать для создания творческих текстовых форматов, таких как стихи, сценарии, код, маркетинговые тексты и черновики электронных писем.
- Чат-боты и диалоговый искусственный интеллект: эффективные диалоговые интерфейсы для обслуживания клиентов, виртуальных помощников или интерактивных приложений.
- Обобщение текста: создавайте краткие изложения текстового корпуса, исследовательских работ или отчетов.
- Извлечение данных изображения. Эти модели можно использовать для извлечения, интерпретации и обобщения визуальных данных для текстовых коммуникаций.
- Исследования и образование
- Обработка естественного языка (NLP) и исследования VLM. Эти модели могут служить для исследователей основой для экспериментов с методами VLM и NLP, разработки алгоритмов и внесения вклада в развитие этой области.
- Инструменты изучения языка: поддержка интерактивного изучения языка, помощь в исправлении грамматики или предоставление практики письма.
- Исследование знаний. Помогите исследователям изучить большие объемы текста, создавая резюме или отвечая на вопросы по конкретным темам.
Ограничения
- Данные обучения
- Качество и разнообразие обучающих данных существенно влияют на возможности модели. Погрешности или пробелы в обучающих данных могут привести к ограничениям ответов модели.
- Объем набора обучающих данных определяет предметные области, с которыми модель может эффективно работать.
- Контекст и сложность задачи
- Модели лучше справляются с задачами, которые можно сформулировать с помощью четких подсказок и инструкций. Открытые или очень сложные задачи могут оказаться сложными.
- На производительность модели может влиять количество предоставленного контекста (более длинный контекст обычно приводит к лучшим результатам до определенного момента).
- Языковая двусмысленность и нюансы
- Естественный язык по своей сути сложен. Моделям может быть сложно уловить тонкие нюансы, сарказм или образный язык.
- Фактическая точность
- Модели генерируют ответы на основе информации, полученной из наборов обучающих данных, но они не являются базами знаний. Они могут генерировать неправильные или устаревшие фактические утверждения.
- Здравый смысл
- Модели полагаются на статистические закономерности в языке. Им может не хватать способности применять здравый смысл в определенных ситуациях.
Этические соображения и риски
Разработка моделей языка видения (VLM) вызывает ряд этических проблем. При создании открытой модели мы тщательно учли следующее:
- Предвзятость и справедливость
- VLM, обученные на крупномасштабных реальных текстовых и графических данных, могут отражать социокультурные предубеждения, заложенные в учебные материалы. Эти модели подверглись тщательному изучению, описана предварительная обработка входных данных и апостериорные оценки, представленные на этой карте.
- Дезинформация и неправильное использование
- VLM могут быть использованы не по назначению для создания ложного, вводящего в заблуждение или вредного текста.
- Предоставляются рекомендации по ответственному использованию модели, см. набор инструментов Responsible Generative AI Toolkit .
- Прозрачность и подотчетность:
- В этой карточке модели обобщаются подробности об архитектуре моделей, возможностях, ограничениях и процессах оценки.
- Ответственно разработанная открытая модель дает возможность делиться инновациями, делая технологию VLM доступной для разработчиков и исследователей в экосистеме искусственного интеллекта.
Выявленные риски и меры по их снижению:
- Сохранение предвзятости . Рекомендуется осуществлять непрерывный мониторинг (с использованием показателей оценки, человеческого анализа) и исследование методов устранения предвзятости во время обучения модели, точной настройки и других вариантов использования.
- Создание вредного контента . Механизмы и рекомендации по обеспечению безопасности контента имеют важное значение. Разработчикам рекомендуется проявлять осторожность и внедрять соответствующие меры безопасности контента, основанные на их конкретной политике в отношении продуктов и сценариях использования приложений.
- Неправомерное использование в злонамеренных целях . Технические ограничения, а также обучение разработчиков и конечных пользователей могут помочь защититься от вредоносных приложений VLM. Предоставляются образовательные ресурсы и механизмы отчетности, позволяющие пользователям сообщать о неправомерном использовании. Запрещенное использование моделей Gemma изложено в Политике запрещенного использования Gemma .
- Нарушения конфиденциальности : модели обучались на данных, отфильтрованных для удаления определенной личной информации и других конфиденциальных данных. Разработчикам рекомендуется соблюдать правила конфиденциальности и использовать методы сохранения конфиденциальности.
Преимущества
На момент выпуска это семейство моделей предоставляет высокопроизводительные реализации моделей на открытом языке, разработанные с нуля для ответственной разработки ИИ по сравнению с моделями аналогичного размера.
Используя эталонные показатели оценки, описанные в этом документе, эти модели показали, что они обеспечивают более высокую производительность по сравнению с другими альтернативами открытой модели сопоставимого размера.