Gemma — это семейство генеративных моделей искусственного интеллекта, которые можно использовать в самых разных задачах генерации, включая ответы на вопросы, суммирование и рассуждения. Модели Gemma имеют открытые веса и допускают ответственное коммерческое использование , позволяя настраивать и развертывать их в собственных проектах и приложениях.
Семейство моделей Gemma 4 включает три различные архитектуры, разработанные с учетом конкретных требований к оборудованию:
- Небольшие размеры: эффективные параметрические модели с 2 и 4 миллиардами параметров, разработанные для сверхмобильных устройств, периферийных устройств и браузеров (например, Pixel, Chrome).
- Dense: Мощная модель с 31 миллиардом параметров, которая устраняет разрыв между производительностью серверного уровня и локальным выполнением.
- Модель «Смешанный состав экспертов»: высокоэффективная модель MoE 26B, разработанная для высокопроизводительного и сложного логического мышления.
Модели Gemma 4 можно скачать с Kaggle и Hugging Face . Более подробную техническую информацию о Gemma 4 см. в карточке модели . Более ранние версии основных моделей Gemma также доступны для скачивания. Дополнительную информацию см. в разделе «Предыдущие модели Gemma» .
Найдите это на Kaggle Найдите это на Hugging Face
Возможности
- Рассуждение: Все модели этого семейства разработаны как высокоэффективные средства рассуждения с настраиваемыми режимами мышления .
- Расширенные возможности мультимодальности: обработка текста, изображений с переменным соотношением сторон и разрешением (все модели), видео и аудио (доступно изначально в моделях E2B и E4B).
- Расширенное контекстное окно: в моделях малого размера контекстное окно составляет 128 КБ, а в моделях среднего размера — 256 КБ.
- Расширенные возможности программирования и работы агентов: Достигнуты значительные улучшения в тестах производительности программирования, а также встроенная поддержка вызова функций , что позволяет создавать высокоэффективных автономных агентов.
- Встроенная поддержка системных подсказок: Gemma 4 представляет встроенную поддержку системной роли, что позволяет вести более структурированные и контролируемые беседы.
Размеры параметров и квантование
Модели Gemma 4 доступны в 4 размерах параметров: E2B, E4B, 31B и 26B A4B. Модели можно использовать с точностью по умолчанию (16 бит) или с более низкой точностью с помощью квантования. Различные размеры и точности представляют собой набор компромиссов для вашего приложения ИИ. Модели с большим количеством параметров и битов (более высокая точность) обычно более производительны, но дороже в эксплуатации с точки зрения вычислительных циклов, стоимости памяти и энергопотребления. Модели с меньшим количеством параметров и битов (более низкая точность) обладают меньшими возможностями, но могут быть достаточны для вашей задачи ИИ.
Требования к памяти для вывода Gemma 4
В таблице ниже приведены приблизительные требования к памяти GPU или TPU для выполнения инференции с каждым размером версии модели Gemma 4.
| Параметры | BF16 (16-бит) | SFP8 (8-бит) | Q4_0 (4-бит) |
|---|---|---|---|
| Джемма 4 E2B | 9,6 ГБ | 4,6 ГБ | 3,2 ГБ |
| Джемма 4 E4B | 15 ГБ | 7,5 ГБ | 5 ГБ |
| Джемма 4 31Б | 58,3 ГБ | 30,4 ГБ | 17,4 ГБ |
| Джемма 4 26B A4B | 48 ГБ | 25 ГБ | 15,6 ГБ |
Таблица 1. Приблизительный объем памяти GPU или TPU, необходимый для загрузки моделей Gemma 4 в зависимости от количества параметров и уровня квантования.
Основные моменты, которые следует учитывать при планировании памяти
- Эффективная архитектура (E2B и E4B): «E» означает «эффективные» параметры. В меньших моделях используются послойные встраивания (PLE) для максимальной эффективности параметров при развертывании на устройстве. Вместо добавления дополнительных слоев к модели, PLE предоставляет каждому слою декодера собственное небольшое встраивание для каждого токена. Эти таблицы встраивания большие, но используются только для быстрого поиска, поэтому общий объем памяти, необходимый для загрузки статических весов, выше, чем предполагает количество эффективных параметров.
- Архитектура MoE (26B A4B): Модель 26B представляет собой модель «смешанных экспертов». Хотя при генерации каждого токена активируется только 4 миллиарда параметров, все 26 миллиардов параметров должны быть загружены в память для поддержания высокой скорости маршрутизации и вывода. Именно поэтому базовые требования к памяти гораздо ближе к плотной модели 26B, чем к модели 4B.
- Только базовые веса: Приведенные в предыдущей таблице оценки учитывают только объем памяти, необходимый для загрузки статических весов модели. Они не включают дополнительную видеопамять, необходимую для поддержки программного обеспечения или контекстного окна.
- Окно контекста (кэш ключ-значение): потребление памяти будет динамически увеличиваться в зависимости от общего количества токенов в вашем запросе и сгенерированного ответа. Большие окна контекста требуют значительно больше видеопамяти в дополнение к весам базовой модели.
- Накладные расходы на тонкую настройку: требования к памяти для тонкой настройки моделей Gemma значительно выше, чем для стандартного вывода. Точный объем используемой памяти будет сильно зависеть от используемой среды разработки, размера пакета и от того, используете ли вы настройку с полной точностью или метод параметрически эффективной тонкой настройки (PEFT), такой как адаптация низкого ранга (LoRA).
Предыдущие модели Gemma
Вы можете работать с моделями Джеммы предыдущих поколений, которые также доступны на Kaggle и Hugging Face . Более подробную техническую информацию о предыдущих моделях Джеммы см. на следующих страницах карточек моделей:
- Модель карточки Джеммы 3
- Модель карточки Джеммы 2
- Модель карточки Джеммы 1
Готовы начать строительство? Начните с моделей Gemma!