llama.cpp adalah library open source populer yang dirancang untuk inferensi lokal yang efisien.
Mulai cepat
Menginstal
versi llama.cpp yang telah dibuat sebelumnya
Contoh perintah:
# Download and run a model directly from Hugging Face
llama-cli-hfggml-org/gemma-4-E2B-it-GGUF--prompt"Write a poem about the Kraken."# Use System Prompt
llama-cli-hfggml-org/gemma-4-E2B-it-GGUF-sys"You are Hong Gildong."-p"Who are you?"
Untuk memulai dan menjalankan model di antarmuka yang bagus, Anda dapat memulai server dengan:
llama-server-hfggml-org/gemma-4-E2B-it-GGUF
Tindakan ini akan membuat server yang memungkinkan Anda mengakses model dari antarmuka
(http://localhost:8080) atau dengan mengakses endpoint OpenAI
(http://localhost:8080/v1).
Untuk mengetahui informasi dan petunjuk selengkapnya tentang cara menggunakan llama.cpp dengan Gemma, lihat repositori resmi:
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2026-04-17 UTC."],[],[]]