Menjalankan Gemma dengan Llama.cpp

llama.cpp adalah library open source populer yang dirancang untuk inferensi lokal yang efisien.

Mulai cepat

Menginstal versi llama.cpp yang telah dibuat sebelumnya

Contoh perintah:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Untuk memulai dan menjalankan model di antarmuka yang bagus, Anda dapat memulai server dengan:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Tindakan ini akan membuat server yang memungkinkan Anda mengakses model dari antarmuka (http://localhost:8080) atau dengan mengakses endpoint OpenAI (http://localhost:8080/v1).

Untuk mengetahui informasi dan petunjuk selengkapnya tentang cara menggunakan llama.cpp dengan Gemma, lihat repositori resmi:

llama.cpp di GitHub