Запуск моделей генеративного искусственного интеллекта (ИИ), таких как Gemma, может оказаться сложной задачей без подходящего оборудования. Платформы с открытым исходным кодом, такие как llama.cpp и Ollama, упрощают эту задачу, настраивая предварительно настроенную среду выполнения, которая позволяет запускать версии Gemma с меньшими вычислительными ресурсами. Фактически, используя llama.cpp и Ollama, вы можете запускать версии Gemma на ноутбуке или другом небольшом вычислительном устройстве без графического процессора (GPU).
Чтобы запускать модели Gemma с меньшими вычислительными ресурсами, платформы llama.cpp и Ollama используют квантованные версии моделей в формате файла модели GPT-Generated Unified Format (GGUF). Эти квантованные модели модифицируются для обработки запросов с использованием меньших и менее точных данных. Использование менее точных данных в квантованных моделях для обработки запросов обычно снижает качество результатов моделей, но также снижает затраты на вычислительные ресурсы.
В этом руководстве описывается, как настроить и использовать Ollama для запуска Gemma для генерации текстовых ответов.
Настраивать
В этом разделе описывается, как настроить Ollama и подготовить экземпляр модели Gemma для ответа на запросы, включая запрос доступа к модели, установку программного обеспечения и настройку модели Gemma в Ollama.
Получите доступ к моделям Джеммы
Прежде чем работать с моделями Gemma, убедитесь, что вы запросили доступ через Kaggle и ознакомились с условиями использования Gemma .
Установить Олламу
Прежде чем вы сможете использовать Gemma с Ollama, вам необходимо загрузить и установить программное обеспечение Ollama на свое компьютерное устройство.
Чтобы загрузить и установить Олламу:
- Перейдите на страницу загрузки: https://ollama.com/download .
- Выберите свою операционную систему, нажмите кнопку «Загрузить» или следуйте инструкциям на странице загрузки.
- Установите приложение, запустив установщик.
- Windows: запустите файл установщика *.exe и следуйте инструкциям.
- Mac: распакуйте zip-архив и переместите папку приложения Ollama в каталог «Приложения» .
- Linux: следуйте инструкциям установщика сценариев bash.
Подтвердите, что Ollama установлена, открыв окно терминала и введя следующую команду:
ollama --version
Вы должны увидеть ответ, похожий на: ollama version is #.#.##
. Если вы не получили этот результат, убедитесь, что исполняемый файл Ollama добавлен в путь вашей операционной системы.
Настройте Джемму в Олламе
По умолчанию установочный пакет Ollama не включает ни одной модели. Вы загружаете модель с помощью команды pull
.
Чтобы настроить Джемму в Олламе:
Загрузите и настройте вариант Gemma 2 по умолчанию, открыв окно терминала и введя следующую команду:
ollama pull gemma2
После завершения загрузки вы можете подтвердить доступность модели с помощью следующей команды:
ollama list
По умолчанию Оллама загружает 9 миллиардов параметров, 4-битный квантованный вариант модели Gemma (Q4_0). Вы также можете скачать и использовать другие размеры модели Gemma, указав размер параметра.
Модели указываются как <model_name>:<tag>
> . Для модели Gemma 2 с 2 миллиардами параметров введите gemma2:2b
. Для модели с 27 миллиардами параметров введите gemma2:27b
. Вы можете найти доступные теги на веб-сайте Ollama, включая Gemma 2 и Gemma .
Генерировать ответы
Когда вы завершите установку модели Gemma в Ollama, вы сможете немедленно сгенерировать ответы, используя команду run
интерфейса командной строки Ollama. Оллама также настраивает веб-сервис для доступа к модели, который вы можете протестировать с помощью команды curl
.
Чтобы сгенерировать ответ из командной строки:
В окне терминала и введите следующую команду:
ollama run gemma2 "roses are red"
Чтобы сгенерировать ответ с помощью локального веб-сервиса Ollama:
В окне терминала и введите следующую команду:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma2",\ "prompt":"roses are red"\ }'
Тюнингованные модели Джеммы
Ollama предоставляет набор официальных вариантов модели Gemma для немедленного использования, которые квантуются и сохраняются в формате GGUF. Вы можете использовать свои собственные настроенные модели Gemma с Ollama, преобразовав их в формат GGUF. Ollama включает в себя некоторые функции для преобразования настроенных моделей из формата Modelfile в GGUF. Дополнительную информацию о том, как преобразовать настроенную модель в GGUF, см. в README Ollama.
Следующие шаги
После того как Gemma работает с Ollama, вы можете начать экспериментировать и создавать решения с использованием генеративных возможностей искусственного интеллекта Gemma. Интерфейс командной строки для Ollama может быть полезен для создания решений для сценариев. Интерфейс локального веб-сервиса Ollama может быть полезен для создания экспериментальных и малообъемных приложений.
- Попробуйте выполнить интеграцию с помощью веб-службы Ollama, чтобы создать локально запускаемого персонального помощника по написанию кода .
- Узнайте, как точно настроить модель Gemma .
- Узнайте, как запустить Gemma с помощью Ollama через сервисы Google Cloud Run .
- Узнайте, как запустить Gemma с помощью Google Cloud .
Запуск моделей генеративного искусственного интеллекта (ИИ), таких как Gemma, может оказаться сложной задачей без подходящего оборудования. Платформы с открытым исходным кодом, такие как llama.cpp и Ollama, упрощают эту задачу, настраивая предварительно настроенную среду выполнения, которая позволяет запускать версии Gemma с меньшими вычислительными ресурсами. Фактически, используя llama.cpp и Ollama, вы можете запускать версии Gemma на ноутбуке или другом небольшом вычислительном устройстве без графического процессора (GPU).
Чтобы запускать модели Gemma с меньшими вычислительными ресурсами, платформы llama.cpp и Ollama используют квантованные версии моделей в формате файла модели GPT-Generated Unified Format (GGUF). Эти квантованные модели модифицируются для обработки запросов с использованием меньших и менее точных данных. Использование менее точных данных в квантованных моделях для обработки запросов обычно снижает качество результатов моделей, но также снижает затраты на вычислительные ресурсы.
В этом руководстве описывается, как настроить и использовать Ollama для запуска Gemma для генерации текстовых ответов.
Настраивать
В этом разделе описывается, как настроить Ollama и подготовить экземпляр модели Gemma для ответа на запросы, включая запрос доступа к модели, установку программного обеспечения и настройку модели Gemma в Ollama.
Получите доступ к моделям Джеммы
Прежде чем работать с моделями Gemma, убедитесь, что вы запросили доступ через Kaggle и ознакомились с условиями использования Gemma .
Установить Олламу
Прежде чем вы сможете использовать Gemma с Ollama, вам необходимо загрузить и установить программное обеспечение Ollama на свое компьютерное устройство.
Чтобы загрузить и установить Олламу:
- Перейдите на страницу загрузки: https://ollama.com/download .
- Выберите свою операционную систему, нажмите кнопку «Загрузить» или следуйте инструкциям на странице загрузки.
- Установите приложение, запустив установщик.
- Windows: запустите файл установщика *.exe и следуйте инструкциям.
- Mac: распакуйте zip-архив и переместите папку приложения Ollama в каталог «Приложения» .
- Linux: следуйте инструкциям установщика сценариев bash.
Подтвердите, что Ollama установлена, открыв окно терминала и введя следующую команду:
ollama --version
Вы должны увидеть ответ, похожий на: ollama version is #.#.##
. Если вы не получили этот результат, убедитесь, что исполняемый файл Ollama добавлен в путь вашей операционной системы.
Настройте Джемму в Олламе
По умолчанию установочный пакет Ollama не включает ни одной модели. Вы загружаете модель с помощью команды pull
.
Чтобы настроить Джемму в Олламе:
Загрузите и настройте вариант Gemma 2 по умолчанию, открыв окно терминала и введя следующую команду:
ollama pull gemma2
После завершения загрузки вы можете подтвердить доступность модели с помощью следующей команды:
ollama list
По умолчанию Оллама загружает 9 миллиардов параметров, 4-битный квантованный вариант модели Gemma (Q4_0). Вы также можете скачать и использовать другие размеры модели Gemma, указав размер параметра.
Модели указываются как <model_name>:<tag>
> . Для модели Gemma 2 с 2 миллиардами параметров введите gemma2:2b
. Для модели с 27 миллиардами параметров введите gemma2:27b
. Вы можете найти доступные теги на веб-сайте Ollama, включая Gemma 2 и Gemma .
Генерировать ответы
Когда вы закончите установку модели Gemma в Ollama, вы можете немедленно сгенерировать ответы, используя команду run
интерфейса командной строки Ollama. Оллама также настраивает веб-сервис для доступа к модели, который вы можете протестировать с помощью команды curl
.
Чтобы сгенерировать ответ из командной строки:
В окне терминала и введите следующую команду:
ollama run gemma2 "roses are red"
Чтобы сгенерировать ответ с помощью локального веб-сервиса Ollama:
В окне терминала и введите следующую команду:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma2",\ "prompt":"roses are red"\ }'
Тюнингованные модели Джеммы
Ollama предоставляет набор официальных вариантов модели Gemma для немедленного использования, которые квантуются и сохраняются в формате GGUF. Вы можете использовать свои собственные настроенные модели Gemma с Ollama, преобразовав их в формат GGUF. Ollama включает в себя некоторые функции для преобразования настроенных моделей из формата Modelfile в GGUF. Дополнительную информацию о том, как преобразовать настроенную модель в GGUF, см. в README Ollama.
Следующие шаги
После того как Gemma работает с Ollama, вы можете начать экспериментировать и создавать решения с использованием генеративных возможностей искусственного интеллекта Gemma. Интерфейс командной строки для Ollama может быть полезен для создания решений для сценариев. Интерфейс локального веб-сервиса Ollama может быть полезен для создания экспериментальных и малообъемных приложений.
- Попробуйте выполнить интеграцию с помощью веб-службы Ollama, чтобы создать локально запускаемого персонального помощника по написанию кода .
- Узнайте, как точно настроить модель Gemma .
- Узнайте, как запустить Gemma с помощью Ollama через сервисы Google Cloud Run .
- Узнайте, как запустить Gemma с помощью Google Cloud .