הפעלת Gemma עם Llama.cpp

llama.cpp היא ספרייה פופולרית בקוד פתוח שנועדה להסקת מסקנות מקומית יעילה.

התחלה מהירה

התקנה של גרסה מוכנה מראש של llama.cpp

פקודה לדוגמה:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

כדי להתחיל ולהריץ את המודל בממשק נוח, אפשר להפעיל שרת באמצעות הפקודה:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

כך נוצר שרת שמאפשר לכם לגשת למודל דרך ממשק (http://localhost:8080) או דרך נקודת הקצה של OpenAI (http://localhost:8080/v1).

מידע נוסף והוראות לשימוש ב-llama.cpp עם Gemma זמינים במאגר הרשמי:

llama.cpp ב-GitHub