‫Gemma 4 הושק עם קלט של טקסט, אודיו ותמונות, וחלון הקשר ארוך של עד 256 אלף טוקנים. מידע נוסף

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הפעלת Gemma עם Llama.cpp

‫llama.cpp היא ספרייה פופולרית בקוד פתוח שנועדה להסקת מסקנות מקומית יעילה.

התחלה מהירה

התקנה של גרסה מוכנה מראש של llama.cpp

פקודה לדוגמה:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

כדי להתחיל ולהריץ את המודל בממשק נוח, אפשר להפעיל שרת באמצעות הפקודה:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

כך נוצר שרת שמאפשר לכם לגשת למודל דרך ממשק (http://localhost:8080) או דרך נקודת הקצה של OpenAI (http://localhost:8080/v1).

מידע נוסף והוראות לשימוש ב-llama.cpp עם Gemma זמינים במאגר הרשמי:

‫llama.cpp ב-GitHub