Обзор модели Gemma 4

Gemma — это семейство генеративных моделей искусственного интеллекта, которые можно использовать в самых разных задачах генерации, включая ответы на вопросы, суммирование и рассуждения. Модели Gemma имеют открытые веса и допускают ответственное коммерческое использование , позволяя настраивать и развертывать их в собственных проектах и ​​приложениях.

Семейство моделей Gemma 4 включает четыре различные архитектуры, разработанные с учетом конкретных требований к оборудованию:

  • Небольшие размеры: эффективные параметрические модели с 2 и 4 миллиардами параметров, разработанные для сверхмобильных устройств, периферийных устройств и браузеров (например, Pixel, Chrome).
  • Dense: Мощная модель с 31 миллиардом параметров, которая устраняет разрыв между производительностью серверного уровня и локальным выполнением.
  • Модель «Смешанный состав экспертов»: высокоэффективная модель MoE 26B, разработанная для высокопроизводительного и сложного логического мышления.
  • Unified: модель без 12-битного параметрического кодировщика для многомодальных задач, заменившая визуальные и аудиокодировщики прямыми линейными проекциями входных данных.

Модели Gemma 4 можно скачать с Kaggle и Hugging Face . Более подробную техническую информацию о Gemma 4 см. в карточке модели . Более ранние версии основных моделей Gemma также доступны для скачивания. Дополнительную информацию см. в разделе «Предыдущие модели Gemma» .

Найдите это на Kaggle Найдите это на Hugging Face

Возможности

  • Рассуждение: Все модели этого семейства разработаны как высокоэффективные средства рассуждения с настраиваемыми режимами мышления .
  • Расширенные возможности мультимодальности: обработка текста, изображений с переменным соотношением сторон и разрешением (все модели), видео и аудио (доступно изначально в моделях E2B, E4B и 12B).
  • Расширенное контекстное окно: в моделях малого размера контекстное окно составляет 128 КБ, а в моделях среднего размера — 256 КБ.
  • Расширенные возможности программирования и работы агентов: Достигнуты значительные улучшения в тестах производительности программирования, а также встроенная поддержка вызова функций , что позволяет создавать высокоэффективных автономных агентов.
  • Встроенная поддержка системных подсказок: Gemma 4 представляет встроенную поддержку системной роли, что позволяет вести более структурированные и контролируемые беседы.
  • Многотокенное предсказание : Все модели Gemma 4 (E2B, E4B, 12B, 31B и 26B A4B) включают специальную черновую модель для спекулятивного декодирования, что позволяет значительно ускорить вывод без потери качества.

Размеры параметров и квантование

Модели Gemma 4 доступны в 5 размерах параметров: E2B, E4B, 12B, 31B и 26B A4B. Модели можно использовать с точностью по умолчанию (16 бит) или с более низкой точностью с помощью квантования. Различные размеры и точности представляют собой набор компромиссов для вашего приложения ИИ. Модели с большим количеством параметров и битов (более высокая точность) обычно более производительны, но дороже в эксплуатации с точки зрения вычислительных циклов, стоимости памяти и энергопотребления. Модели с меньшим количеством параметров и битов (более низкая точность) обладают меньшими возможностями, но могут быть достаточны для вашей задачи ИИ.

Требования к памяти для вывода Gemma 4

В таблице ниже приведены приблизительные требования к памяти GPU или TPU для выполнения инференции с каждым размером версии модели Gemma 4.

Параметры BF16 (16-бит) SFP8 (8-бит) Q4_0 (4-бит) Мобильный Мобильная версия (только текст)
Джемма 4 E2B 11,4 ГБ 5,7 ГБ 2,9 ГБ 1,1 ГБ 0,84 ГБ
Джемма 4 E4B 17,9 ГБ 8,9 ГБ 4,5 ГБ 2,5 ГБ 2,2 ГБ
Джемма 4 12Б 26,7 ГБ 13,4 ГБ 6,7 ГБ - -
Джемма 4 26B A4B 57,7 ГБ 28,8 ГБ 14,4 ГБ - -
Джемма 4 31Б 69,9 ГБ 34,9 ГБ 17,5 ГБ - -

Таблица 1. Приблизительный объем памяти GPU или TPU, необходимый для загрузки моделей Gemma 4, в зависимости от количества параметров, уровня квантования и 20% дополнительных затрат на загрузку дополнительных данных. Мобильные версии используют LiteRT-LM.

Основные моменты, которые следует учитывать при планировании памяти

  • Эффективная архитектура (E2B и E4B): «E» означает «эффективные» параметры. В меньших моделях используются послойные встраивания (PLE) для максимальной эффективности параметров при развертывании на устройстве. Вместо добавления дополнительных слоев к модели, PLE предоставляет каждому слою декодера собственное небольшое встраивание для каждого токена. Эти таблицы встраивания большие, но используются только для быстрого поиска, поэтому общий объем памяти, необходимый для загрузки статических весов, выше, чем предполагает количество эффективных параметров.
  • Архитектура MoE (26B A4B): Модель 26B представляет собой модель «смешанных экспертов». Хотя при генерации каждого токена активируется только 4 миллиарда параметров, все 26 миллиардов параметров должны быть загружены в память для поддержания высокой скорости маршрутизации и вывода. Именно поэтому базовые требования к памяти гораздо ближе к плотной модели 26B, чем к модели 4B.
  • Только базовые веса: Приведенные в предыдущей таблице оценки учитывают только объем памяти, необходимый для загрузки статических весов модели. Они не включают дополнительную видеопамять, необходимую для поддержки программного обеспечения или контекстного окна.
  • Окно контекста (кэш ключ-значение): потребление памяти будет динамически увеличиваться в зависимости от общего количества токенов в вашем запросе и сгенерированного ответа. Большие окна контекста требуют значительно больше видеопамяти в дополнение к весам базовой модели.
  • Накладные расходы на тонкую настройку: Требования к памяти для тонкой настройки моделей Gemma значительно выше, чем для стандартного вывода. Точный объем используемой памяти будет сильно зависеть от используемой среды разработки, размера пакета и от того, используете ли вы настройку с полной точностью или метод параметрически эффективной тонкой настройки (PEFT), такой как адаптация низкого ранга (LoRA).

Обучение с учетом квантования (QAT)

Для развертывания систем, требующих максимальной эффективности при минимальном ухудшении качества, Gemma предлагает официальные модели обучения с учетом квантования (Quantization-Aware Training, QAT) .

В отличие от стандартного постобучения квантования (PTQ), которое сжимает полностью обученную модель и может привести к ухудшению качества, QAT интегрирует моделирование квантования в сам процесс обучения. Это позволяет модели научиться компенсировать потерю точности, в результате чего получаются более компактные модели, которые работают практически идентично своим высокоточным базовым моделям.

Таблица быстрой маршрутизации

Механизм развертывания целей Скачать суффикс Основной вариант использования
llama.cpp / LM Studio (локальная версия) {model-name}-qat-q4_0-gguf Развертывание на локальном сервере без необходимости настройки, использующем процессоры CPU, Apple Silicon или потребительские видеокарты.
vLLM / SGLang СЕРВЕР: {model-name}-qat-w4a16-ct
МОБИЛЬНЫЙ: {model-name}-qat-mobile-ct
Высокопроизводительный вывод с использованием 4-битных весов и 16-битных активаций.
Спекулятивное декодирование МОДЕЛЬ: {model-name}-qat-q4_0-unquantized
DRAFTER: {model-name}-qat-q4_0-unquantized-assistant
Запуск основной модели параллельно с соответствующей ей черновой моделью MTP позволит значительно ускорить генерацию токенов. Модель должна быть квантована.
Другие форматы {model-name}-qat-q4_0-unquantized Неквантованные веса для преобразования в другие форматы (например, MLX)
Мобильное развертывание (трансформаторы) {model-name}-qat-mobile-transformers Веса ребер оптимизированы для мобильных устройств. Они служат ориентиром для других форматов.

Официальные коллекции QAT на Hugging Face

  • collections/google/gemma-4-qat-q4-0
    • Неквантованные контрольные точки QAT ( -unquantized / -assistant ): Веса с половинной точностью, извлекаемые непосредственно из конвейера QAT. Они идеально подходят для пользовательской последующей компиляции, исследований или выполнения спекулятивного декодирования с использованием моделей ассистента. Доступны для Gemma 4 E2B, E4B, 12B, 26B A4B и 31B.
    • GGUF ( -gguf ): Контрольные точки, доступные для немедленной интеграции в локальную экосистему LLM. Доступно для Gemma 4 E2B, E4B, 12B, 26B A4B и 31B.
    • Сжатые тензоры ( -w4a16-ct ): сериализуются нативно в стандарте compressed-tensors для оптимизированного высокопроизводительного обслуживания в облаке. Доступно для Gemma 4 E2B, E4B, 12B и 31B.
  • collections/google/gemma-4-qat-mobile
    • Оптимизировано для мобильных устройств ( -mobile-transformers / -mobile-ct ): построено на основе пользовательской схемы wNa8o8 , разработанной специально для ограничений мобильного оборудования. Использует целевые 2-битные слои декодирования, оптимизированные кэши ключ-значение и статические активации для максимальной экономии оперативной памяти на устройстве без перегрузки процессоров. Доступно для Gemma 4 E2B и E4B.

Все официальные контрольные точки Gemma 4 QAT также доступны напрямую через Kaggle .

Предыдущие модели Gemma

Вы можете работать с моделями Джеммы предыдущих поколений, которые также доступны на Kaggle и Hugging Face . Более подробную техническую информацию о предыдущих моделях Джеммы см. на следующих страницах карточек моделей:

Готовы начать строительство? Начните с моделей Gemma!