Запустите Gemma с помощью Llama.cpp

llama.cpp — популярная библиотека с открытым исходным кодом, предназначенная для эффективного локального вывода.

Быстрый старт

Установите готовую версию llama.cpp.

Пример команды:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Для начала работы и запуска модели в удобном интерфейсе вы можете запустить сервер с помощью следующей команды:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Это создаст сервер, который позволит вам получить доступ к вашей модели либо через интерфейс ( http://localhost:8080 ), либо через конечную точку OpenAI ( http://localhost:8080/v1 ).

Для получения дополнительной информации и инструкций по использованию llama.cpp с Gemma обратитесь к официальному репозиторию:

llama.cpp на GitHub