Chạy Gemma bằng Llama.cpp

llama.cpp là một thư viện mã nguồn mở phổ biến được thiết kế để suy luận hiệu quả trên thiết bị.

Bắt đầu nhanh

Cài đặt phiên bản dựng sẵn của llama.cpp

Lệnh mẫu:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Để bắt đầu và chạy mô hình trong một giao diện đẹp, bạn có thể khởi động một máy chủ bằng:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Lệnh này tạo một máy chủ cho phép bạn truy cập vào mô hình của mình thông qua một giao diện (http://localhost:8080) hoặc bằng cách truy cập vào điểm cuối OpenAI (http://localhost:8080/v1).

Để biết thêm thông tin và hướng dẫn về cách sử dụng llama.cpp với Gemma, hãy tham khảo kho lưu trữ chính thức:

llama.cpp trên GitHub