Беги с Джеммой вместе с Олламой, Беги с Джеммой с Олламой

Запуск моделей генеративного искусственного интеллекта (ИИ), таких как Gemma, может оказаться сложной задачей без подходящего оборудования. Платформы с открытым исходным кодом, такие как llama.cpp и Ollama, упрощают эту задачу, настраивая предварительно настроенную среду выполнения, которая позволяет запускать версии Gemma с меньшими вычислительными ресурсами. Фактически, используя llama.cpp и Ollama, вы можете запускать версии Gemma на ноутбуке или другом небольшом вычислительном устройстве без графического процессора (GPU).

Чтобы запускать модели Gemma с меньшими вычислительными ресурсами, платформы llama.cpp и Ollama используют квантованные версии моделей в формате файла модели GPT-Generated Unified Format (GGUF). Эти квантованные модели модифицируются для обработки запросов с использованием меньших и менее точных данных. Использование менее точных данных в квантованных моделях для обработки запросов обычно снижает качество результатов моделей, но также снижает затраты на вычислительные ресурсы.

В этом руководстве описывается, как настроить и использовать Ollama для запуска Gemma для генерации текстовых ответов.

Настраивать

В этом разделе описывается, как настроить Ollama и подготовить экземпляр модели Gemma для ответа на запросы, включая запрос доступа к модели, установку программного обеспечения и настройку модели Gemma в Ollama.

Получите доступ к моделям Джеммы

Прежде чем работать с моделями Gemma, убедитесь, что вы запросили доступ через Kaggle и ознакомились с условиями использования Gemma .

Установить Олламу

Прежде чем вы сможете использовать Gemma с Ollama, вам необходимо загрузить и установить программное обеспечение Ollama на свое компьютерное устройство.

Чтобы загрузить и установить Олламу:

  1. Перейдите на страницу загрузки: https://ollama.com/download .
  2. Выберите свою операционную систему, нажмите кнопку «Загрузить» или следуйте инструкциям на странице загрузки.
  3. Установите приложение, запустив установщик.
    • Windows: запустите файл установщика *.exe и следуйте инструкциям.
    • Mac: распакуйте zip-архив и переместите папку приложения Ollama в каталог «Приложения» .
    • Linux: следуйте инструкциям установщика сценариев bash.
  4. Подтвердите, что Ollama установлена, открыв окно терминала и введя следующую команду:

    ollama --version
    

Вы должны увидеть ответ, похожий на: ollama version is #.#.## . Если вы не получили этот результат, убедитесь, что исполняемый файл Ollama добавлен в путь вашей операционной системы.

Настройте Джемму в Олламе

По умолчанию установочный пакет Ollama не включает ни одной модели. Вы загружаете модель с помощью команды pull .

Чтобы настроить Джемму в Олламе:

  1. Загрузите и настройте вариант Gemma 2 по умолчанию, открыв окно терминала и введя следующую команду:

    ollama pull gemma2
    
  2. После завершения загрузки вы можете подтвердить доступность модели с помощью следующей команды:

    ollama list
    

По умолчанию Оллама загружает 9 миллиардов параметров, 4-битный квантованный вариант модели Gemma (Q4_0). Вы также можете скачать и использовать другие размеры модели Gemma, указав размер параметра.

Модели указываются как <model_name>:<tag> > . Для модели Gemma 2 с 2 миллиардами параметров введите gemma2:2b . Для модели с 27 миллиардами параметров введите gemma2:27b . Вы можете найти доступные теги на веб-сайте Ollama, включая Gemma 2 и Gemma .

Генерировать ответы

Когда вы завершите установку модели Gemma в Ollama, вы сможете немедленно сгенерировать ответы, используя команду run интерфейса командной строки Ollama. Оллама также настраивает веб-сервис для доступа к модели, который вы можете протестировать с помощью команды curl .

Чтобы сгенерировать ответ из командной строки:

  • В окне терминала и введите следующую команду:

    ollama run gemma2 "roses are red"
    

Чтобы сгенерировать ответ с помощью локального веб-сервиса Ollama:

  • В окне терминала и введите следующую команду:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma2",\
      "prompt":"roses are red"\
    }'
    

Тюнингованные модели Джеммы

Ollama предоставляет набор официальных вариантов модели Gemma для немедленного использования, которые квантуются и сохраняются в формате GGUF. Вы можете использовать свои собственные настроенные модели Gemma с Ollama, преобразовав их в формат GGUF. Ollama включает в себя некоторые функции для преобразования настроенных моделей из формата Modelfile в GGUF. Дополнительную информацию о том, как преобразовать настроенную модель в GGUF, см. в README Ollama.

Следующие шаги

После того как Gemma работает с Ollama, вы можете начать экспериментировать и создавать решения с использованием генеративных возможностей искусственного интеллекта Gemma. Интерфейс командной строки для Ollama может быть полезен для создания решений для сценариев. Интерфейс локального веб-сервиса Ollama может быть полезен для создания экспериментальных и малообъемных приложений.

,

Запуск моделей генеративного искусственного интеллекта (ИИ), таких как Gemma, может оказаться сложной задачей без подходящего оборудования. Платформы с открытым исходным кодом, такие как llama.cpp и Ollama, упрощают эту задачу, настраивая предварительно настроенную среду выполнения, которая позволяет запускать версии Gemma с меньшими вычислительными ресурсами. Фактически, используя llama.cpp и Ollama, вы можете запускать версии Gemma на ноутбуке или другом небольшом вычислительном устройстве без графического процессора (GPU).

Чтобы запускать модели Gemma с меньшими вычислительными ресурсами, платформы llama.cpp и Ollama используют квантованные версии моделей в формате файла модели GPT-Generated Unified Format (GGUF). Эти квантованные модели модифицируются для обработки запросов с использованием меньших и менее точных данных. Использование менее точных данных в квантованных моделях для обработки запросов обычно снижает качество результатов моделей, но также снижает затраты на вычислительные ресурсы.

В этом руководстве описывается, как настроить и использовать Ollama для запуска Gemma для генерации текстовых ответов.

Настраивать

В этом разделе описывается, как настроить Ollama и подготовить экземпляр модели Gemma для ответа на запросы, включая запрос доступа к модели, установку программного обеспечения и настройку модели Gemma в Ollama.

Получите доступ к моделям Джеммы

Прежде чем работать с моделями Gemma, убедитесь, что вы запросили доступ через Kaggle и ознакомились с условиями использования Gemma .

Установить Олламу

Прежде чем вы сможете использовать Gemma с Ollama, вам необходимо загрузить и установить программное обеспечение Ollama на свое компьютерное устройство.

Чтобы загрузить и установить Олламу:

  1. Перейдите на страницу загрузки: https://ollama.com/download .
  2. Выберите свою операционную систему, нажмите кнопку «Загрузить» или следуйте инструкциям на странице загрузки.
  3. Установите приложение, запустив установщик.
    • Windows: запустите файл установщика *.exe и следуйте инструкциям.
    • Mac: распакуйте zip-архив и переместите папку приложения Ollama в каталог «Приложения» .
    • Linux: следуйте инструкциям установщика сценариев bash.
  4. Подтвердите, что Ollama установлена, открыв окно терминала и введя следующую команду:

    ollama --version
    

Вы должны увидеть ответ, похожий на: ollama version is #.#.## . Если вы не получили этот результат, убедитесь, что исполняемый файл Ollama добавлен в путь вашей операционной системы.

Настройте Джемму в Олламе

По умолчанию установочный пакет Ollama не включает ни одной модели. Вы загружаете модель с помощью команды pull .

Чтобы настроить Джемму в Олламе:

  1. Загрузите и настройте вариант Gemma 2 по умолчанию, открыв окно терминала и введя следующую команду:

    ollama pull gemma2
    
  2. После завершения загрузки вы можете подтвердить доступность модели с помощью следующей команды:

    ollama list
    

По умолчанию Оллама загружает 9 миллиардов параметров, 4-битный квантованный вариант модели Gemma (Q4_0). Вы также можете скачать и использовать другие размеры модели Gemma, указав размер параметра.

Модели указываются как <model_name>:<tag> > . Для модели Gemma 2 с 2 миллиардами параметров введите gemma2:2b . Для модели с 27 миллиардами параметров введите gemma2:27b . Вы можете найти доступные теги на веб-сайте Ollama, включая Gemma 2 и Gemma .

Генерировать ответы

Когда вы закончите установку модели Gemma в Ollama, вы можете немедленно сгенерировать ответы, используя команду run интерфейса командной строки Ollama. Оллама также настраивает веб-сервис для доступа к модели, который вы можете протестировать с помощью команды curl .

Чтобы сгенерировать ответ из командной строки:

  • В окне терминала и введите следующую команду:

    ollama run gemma2 "roses are red"
    

Чтобы сгенерировать ответ с помощью локального веб-сервиса Ollama:

  • В окне терминала и введите следующую команду:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma2",\
      "prompt":"roses are red"\
    }'
    

Тюнингованные модели Джеммы

Ollama предоставляет набор официальных вариантов модели Gemma для немедленного использования, которые квантуются и сохраняются в формате GGUF. Вы можете использовать свои собственные настроенные модели Gemma с Ollama, преобразовав их в формат GGUF. Ollama включает в себя некоторые функции для преобразования настроенных моделей из формата Modelfile в GGUF. Дополнительную информацию о том, как преобразовать настроенную модель в GGUF, см. в README Ollama.

Следующие шаги

После того как Gemma работает с Ollama, вы можете начать экспериментировать и создавать решения с использованием генеративных возможностей искусственного интеллекта Gemma. Интерфейс командной строки для Ollama может быть полезен для создания решений для сценариев. Интерфейс локального веб-сервиса Ollama может быть полезен для создания экспериментальных и малообъемных приложений.