Запустите генерацию контента и выводы Gemma

Есть два ключевых решения, которые нужно принять, когда вы хотите запустить модель Gemma: 1) какой вариант Gemma вы хотите запустить, и 2) какую среду выполнения ИИ вы собираетесь использовать для ее запуска? Ключевой вопрос в принятии обоих этих решений связан с тем, какое оборудование есть у вас и ваших пользователей для запуска модели.

Этот обзор поможет вам сориентироваться в этих решениях и начать работать с моделями Gemma. Общие шаги для запуска модели Gemma следующие:

Выберите фреймворк

Модели Gemma совместимы с различными фреймворками генеративного выполнения ИИ. Одним из ключевых факторов принятия решений при запуске модели Gemma является то, какие вычислительные ресурсы у вас есть (или будут) доступны для запуска модели. Большинству совместимых фреймворков ИИ требуется специализированное оборудование, такое как графические процессоры или TPU, для эффективного запуска модели Gemma. Такие инструменты, как Google Colab, могут предоставлять эти специализированные вычислительные ресурсы на ограниченной основе. Некоторые фреймворки выполнения ИИ, такие как Ollama и Gemma.cpp , позволяют запускать Gemma на более распространенных процессорах с использованием архитектур, совместимых с x86 или ARM.

Ниже приведены руководства по запуску моделей Gemma с различными средами выполнения ИИ:

Убедитесь, что формат предполагаемой модели Gemma для развертывания, например собственный формат Keras, Safetensors или GGUF, поддерживается выбранной вами средой.

Выберите вариант Gemma

Модели Gemma доступны в нескольких вариантах и ​​размерах, включая базовые или основные модели Gemma, а также более специализированные варианты моделей, такие как PaliGemma и DataGemma , и множество вариантов, созданных сообществом разработчиков ИИ на таких сайтах, как Kaggle и Hugging Face . Если вы не уверены, с какого варианта вам следует начать, выберите последнюю модель Gemma core instructions-tuned (IT) с наименьшим количеством параметров. Этот тип модели Gemma имеет низкие вычислительные требования и может отвечать на широкий спектр запросов без необходимости дополнительной разработки.

При выборе варианта Gemma учитывайте следующие факторы:

  • Gemma core и другие семейства вариантов, такие как PaliGemma, CodeGemma : Рекомендовать Gemma (core). Варианты Gemma за пределами версии core имеют ту же архитектуру, что и модель core, и обучены лучше выполнять определенные задачи. Если только ваше приложение или цели не совпадают со специализацией конкретного варианта Gemma, лучше всего начать с модели ядра Gemma или базовой модели.
  • Настроенный по инструкциям (IT), предварительно обученный (PT), точно настроенный (FT), смешанный (mix) : рекомендуется IT.
    • Варианты Gemma с настройкой на инструкции (IT) — это модели, которые были обучены реагировать на различные инструкции или запросы на человеческом языке. Эти варианты моделей — лучшее место для начала, поскольку они могут реагировать на подсказки без дальнейшего обучения модели.
    • Предварительно обученные (PT) варианты Gemma — это модели, которые были обучены делать выводы о языке или других данных, но не были обучены следовать человеческим инструкциям. Эти модели требуют дополнительного обучения или настройки для эффективного выполнения задач и предназначены для исследователей или разработчиков, которые хотят изучить или развить возможности модели и ее архитектуры.
    • Варианты Gemma с тонкой настройкой (FT) можно считать вариантами IT, но обычно они обучаются выполнять определенную задачу или хорошо работают на определенном генеративном бенчмарке AI. Семейство вариантов PaliGemma включает в себя ряд вариантов FT.
    • Смешанные (микс) варианты Gemma представляют собой версии моделей PaliGemma, которые были настроены с использованием различных инструкций и подходят для общего использования.
  • Параметры : Рекомендовать наименьшее доступное число . В общем, чем больше параметров у модели, тем она более способна. Однако запуск более крупных моделей требует больших и более сложных вычислительных ресурсов и, как правило, замедляет разработку приложения ИИ. Если вы еще не определили, что меньшая модель Gemma не может удовлетворить ваши потребности, выберите модель с небольшим количеством параметров.
  • Уровни квантования: рекомендуется половинная точность (16 бит), за исключением настройки . Квантование — сложная тема, которая сводится к тому, какой размер и точность данных, а следовательно, сколько памяти генеративная модель ИИ использует для вычислений и генерации ответов. После того, как модель обучена с использованием высокоточных данных, которые обычно представляют собой 32-битные данные с плавающей точкой, такие модели, как Gemma, можно модифицировать для использования данных с меньшей точностью, таких как размеры 16, 8 или 4 бит. Эти квантованные модели Gemma могут по-прежнему хорошо работать в зависимости от сложности задач, используя при этом значительно меньше вычислительных ресурсов и памяти. Однако инструменты для настройки квантованных моделей ограничены и могут быть недоступны в выбранной вами среде разработки ИИ. Как правило, необходимо точно настроить такую ​​модель, как Gemma, на полную точность, а затем квантовать полученную модель.

Список основных моделей Gemma, опубликованных Google, см. в разделе Начало работы с моделями Gemma , Список моделей Gemma.

Выполнение запросов на генерацию и вывод

После выбора фреймворка выполнения ИИ и варианта Gemma можно приступить к запуску модели и побудить ее генерировать контент или выполнять задачи. Для получения дополнительной информации о том, как запустить Gemma с определенным фреймворком, см. руководства, ссылки на которые приведены в разделе «Выберите фреймворк» .

Быстрое форматирование

Все варианты Gemma с настройкой инструкций имеют определенные требования к форматированию подсказок. Некоторые из этих требований к форматированию обрабатываются автоматически фреймворком, который вы используете для запуска моделей Gemma, но когда вы отправляете данные подсказок напрямую в токенизатор, вы должны добавить определенные теги, и требования к тегированию могут меняться в зависимости от варианта Gemma, который вы используете. Информацию о форматировании подсказок вариантов Gemma и системные инструкции см. в следующих руководствах: