Gemma 4 dirilis dengan input teks, audio, dan gambar serta jendela konteks panjang hingga 256K token. Pelajari lebih lanjut

Menjalankan Gemma dengan Llama.cpp

llama.cpp adalah library open source populer yang dirancang untuk inferensi lokal yang efisien.

Mulai cepat

Menginstal versi llama.cpp yang telah dibuat sebelumnya

Contoh perintah:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Untuk memulai dan menjalankan model di antarmuka yang bagus, Anda dapat memulai server dengan:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Tindakan ini akan membuat server yang memungkinkan Anda mengakses model dari antarmuka (http://localhost:8080) atau dengan mengakses endpoint OpenAI (http://localhost:8080/v1).

Untuk mengetahui informasi dan petunjuk selengkapnya tentang cara menggunakan llama.cpp dengan Gemma, lihat repositori resmi:

llama.cpp di GitHub