Посетите репозиторий Gemma Cookbook, где можно найти примеры генерации и настройки! Узнать больше

Эта страница переведена с помощью Cloud Translation API.

Беги с Джеммой вместе с Олламой, Беги с Джеммой с Олламой

Запуск моделей генеративного искусственного интеллекта (ИИ), таких как Gemma, может оказаться сложной задачей без подходящего оборудования. Платформы с открытым исходным кодом, такие как llama.cpp и Ollama, упрощают эту задачу, настраивая предварительно настроенную среду выполнения, которая позволяет запускать версии Gemma с меньшими вычислительными ресурсами. Фактически, используя llama.cpp и Ollama, вы можете запускать версии Gemma на ноутбуке или другом небольшом вычислительном устройстве без графического процессора (GPU).

Чтобы запускать модели Gemma с меньшими вычислительными ресурсами, платформы llama.cpp и Ollama используют квантованные версии моделей в формате файла модели GPT-Generated Unified Format (GGUF). Эти квантованные модели модифицируются для обработки запросов с использованием меньших и менее точных данных. Использование менее точных данных в квантованных моделях для обработки запросов обычно снижает качество результатов моделей, но также снижает затраты на вычислительные ресурсы.

В этом руководстве описывается, как настроить и использовать Ollama для запуска Gemma для генерации текстовых ответов.

Настраивать

В этом разделе описывается, как настроить Ollama и подготовить экземпляр модели Gemma для ответа на запросы, включая запрос доступа к модели, установку программного обеспечения и настройку модели Gemma в Ollama.

Получите доступ к моделям Джеммы

Прежде чем работать с моделями Gemma, убедитесь, что вы запросили доступ через Kaggle и ознакомились с условиями использования Gemma .

Установить Олламу

Прежде чем вы сможете использовать Gemma с Ollama, вам необходимо загрузить и установить программное обеспечение Ollama на свое компьютерное устройство.

Чтобы загрузить и установить Олламу:

Перейдите на страницу загрузки: https://ollama.com/download .
Выберите свою операционную систему, нажмите кнопку «Загрузить» или следуйте инструкциям на странице загрузки.
Установите приложение, запустив установщик.
- Windows: запустите файл установщика *.exe и следуйте инструкциям.
- Mac: распакуйте zip-архив и переместите папку приложения Ollama в каталог «Приложения» .
- Linux: следуйте инструкциям установщика сценариев bash.
Подтвердите, что Ollama установлена, открыв окно терминала и введя следующую команду:
```
ollama --version
```

Вы должны увидеть ответ, похожий на: ollama version is #.#.## . Если вы не получили этот результат, убедитесь, что исполняемый файл Ollama добавлен в путь вашей операционной системы.

Настройте Джемму в Олламе

По умолчанию установочный пакет Ollama не включает ни одной модели. Вы загружаете модель с помощью команды pull .

Чтобы настроить Джемму в Олламе:

Загрузите и настройте вариант Gemma 2 по умолчанию, открыв окно терминала и введя следующую команду:
```
ollama pull gemma2
```
После завершения загрузки вы можете подтвердить доступность модели с помощью следующей команды:
```
ollama list
```

По умолчанию Оллама загружает 9 миллиардов параметров, 4-битный квантованный вариант модели Gemma (Q4_0). Вы также можете скачать и использовать другие размеры модели Gemma, указав размер параметра.

Модели указываются как <model_name>:<tag> > . Для модели Gemma 2 с 2 миллиардами параметров введите gemma2:2b . Для модели с 27 миллиардами параметров введите gemma2:27b . Вы можете найти доступные теги на веб-сайте Ollama, включая Gemma 2 и Gemma .

Генерировать ответы

Когда вы завершите установку модели Gemma в Ollama, вы сможете немедленно сгенерировать ответы, используя команду run интерфейса командной строки Ollama. Оллама также настраивает веб-сервис для доступа к модели, который вы можете протестировать с помощью команды curl .

Чтобы сгенерировать ответ из командной строки:

В окне терминала и введите следующую команду:
```
ollama run gemma2 "roses are red"
```

Чтобы сгенерировать ответ с помощью локального веб-сервиса Ollama:

В окне терминала и введите следующую команду:

curl http://localhost:11434/api/generate -d '{\
  "model": "gemma2",\
  "prompt":"roses are red"\
}'

Тюнингованные модели Джеммы

Ollama предоставляет набор официальных вариантов модели Gemma для немедленного использования, которые квантуются и сохраняются в формате GGUF. Вы можете использовать свои собственные настроенные модели Gemma с Ollama, преобразовав их в формат GGUF. Ollama включает в себя некоторые функции для преобразования настроенных моделей из формата Modelfile в GGUF. Дополнительную информацию о том, как преобразовать настроенную модель в GGUF, см. в README Ollama.

Следующие шаги

После того как Gemma работает с Ollama, вы можете начать экспериментировать и создавать решения с использованием генеративных возможностей искусственного интеллекта Gemma. Интерфейс командной строки для Ollama может быть полезен для создания решений для сценариев. Интерфейс локального веб-сервиса Ollama может быть полезен для создания экспериментальных и малообъемных приложений.

Попробуйте выполнить интеграцию с помощью веб-службы Ollama, чтобы создать локально запускаемого персонального помощника по написанию кода .
Узнайте, как точно настроить модель Gemma .
Узнайте, как запустить Gemma с помощью Ollama через сервисы Google Cloud Run .
Узнайте, как запустить Gemma с помощью Google Cloud .