Обзор модели Gemma 4

Gemma — это семейство генеративных моделей искусственного интеллекта, которые можно использовать в самых разных задачах генерации, включая ответы на вопросы, суммирование и рассуждения. Модели Gemma имеют открытые веса и допускают ответственное коммерческое использование , позволяя настраивать и развертывать их в собственных проектах и ​​приложениях.

Gemma 4 model family spans three distinct architectures tailored for specific hardware requirements:

  • Small Sizes: 2B and 4B effective parameter models built for ultra-mobile, edge, and browser deployment (eg, Pixel, Chrome).
  • Dense: Мощная модель с 31 миллиардом параметров, которая устраняет разрыв между производительностью серверного уровня и локальным выполнением.
  • Mixture-of-Experts: A highly efficient 26B MoE model designed for high-throughput, advanced reasoning.

Модели Gemma 4 можно скачать с Kaggle и Hugging Face . Более подробную техническую информацию о Gemma 4 см. в карточке модели . Более ранние версии основных моделей Gemma также доступны для скачивания. Дополнительную информацию см. в разделе «Предыдущие модели Gemma» .

Get it on Kaggle Get it on Hugging Face

Возможности

  • Reasoning: All models in the family are designed as highly capable reasoners, with configurable thinking modes .
  • Extended Multimodalities: Processes Text, Image with variable aspect ratio and resolution support (all models), Video , and Audio (featured natively on the E2B and E4B models).
  • Расширенное контекстное окно: в моделях малого размера контекстное окно составляет 128 КБ, а в моделях среднего размера — 256 КБ.
  • Расширенные возможности программирования и работы агентов: Достигнуты значительные улучшения в тестах производительности программирования, а также встроенная поддержка вызова функций , что позволяет создавать высокоэффективных автономных агентов.
  • Native System Prompt Support: Gemma 4 introduces built-in support for the system role, enabling more structured and controllable conversations.
  • Многотокенное предсказание : Все модели Gemma 4 (E2B, E4B, 31B и 26B A4B) включают специальную черновую модель для спекулятивного декодирования, что позволяет значительно ускорить вывод без потери качества.

Parameter sizes and quantization

Модели Gemma 4 доступны в 4 размерах параметров: E2B, E4B, 31B и 26B A4B. Модели можно использовать с точностью по умолчанию (16 бит) или с более низкой точностью с помощью квантования. Различные размеры и точности представляют собой набор компромиссов для вашего приложения ИИ. Модели с большим количеством параметров и битов (более высокая точность) обычно более производительны, но дороже в эксплуатации с точки зрения вычислительных циклов, стоимости памяти и энергопотребления. Модели с меньшим количеством параметров и битов (более низкая точность) обладают меньшими возможностями, но могут быть достаточны для вашей задачи ИИ.

Gemma 4 Inference Memory Requirements

В таблице ниже приведены приблизительные требования к памяти GPU или TPU для выполнения инференции с каждым размером версии модели Gemma 4.

Параметры BF16 (16-bit) SFP8 (8-bit) Q4_0 (4-bit)
Джемма 4 E2B 9,6 ГБ 4,6 ГБ 3,2 ГБ
Джемма 4 E4B 15 ГБ 7,5 ГБ 5 ГБ
Gemma 4 31B 58.3 GB 30.4 GB 17,4 ГБ
Джемма 4 26B A4B 48 ГБ 25 ГБ 15.6 GB

Table 1. Approximate GPU or TPU memory required to load Gemma 4 models based on parameter count and quantization level.

Key Considerations for Memory Planning

  • Эффективная архитектура (E2B и E4B): «E» означает «эффективные» параметры. В меньших моделях используются послойные встраивания (PLE) для максимальной эффективности параметров при развертывании на устройстве. Вместо добавления дополнительных слоев к модели, PLE предоставляет каждому слою декодера собственное небольшое встраивание для каждого токена. Эти таблицы встраивания большие, но используются только для быстрого поиска, поэтому общий объем памяти, необходимый для загрузки статических весов, выше, чем предполагает количество эффективных параметров.
  • Архитектура MoE (26B A4B): Модель 26B представляет собой модель «смешанных экспертов». Хотя при генерации каждого токена активируется только 4 миллиарда параметров, все 26 миллиардов параметров должны быть загружены в память для поддержания высокой скорости маршрутизации и вывода. Именно поэтому базовые требования к памяти гораздо ближе к плотной модели 26B, чем к модели 4B.
  • Только базовые веса: Приведенные в предыдущей таблице оценки учитывают только объем памяти, необходимый для загрузки статических весов модели. Они не включают дополнительную видеопамять, необходимую для поддержки программного обеспечения или контекстного окна.
  • Окно контекста (кэш ключ-значение): потребление памяти будет динамически увеличиваться в зависимости от общего количества токенов в вашем запросе и сгенерированного ответа. Большие окна контекста требуют значительно больше видеопамяти в дополнение к весам базовой модели.
  • Накладные расходы на тонкую настройку: Требования к памяти для тонкой настройки моделей Gemma значительно выше, чем для стандартного вывода. Точный объем используемой памяти будет сильно зависеть от используемой среды разработки, размера пакета и от того, используете ли вы настройку с полной точностью или метод параметрически эффективной тонкой настройки (PEFT), такой как адаптация низкого ранга (LoRA).

Previous Gemma models

Вы можете работать с моделями Джеммы предыдущих поколений, которые также доступны на Kaggle и Hugging Face . Более подробную техническую информацию о предыдущих моделях Джеммы см. на следующих страницах карточек моделей:

Готовы начать строительство? Начните с моделей Gemma!