اجرای Gemma با Llama.cpp

llama.cpp یک کتابخانه متن‌باز محبوب است که برای استنتاج محلی کارآمد طراحی شده است.

شروع سریع

نسخه از پیش ساخته شده llama.cpp را نصب کنید

دستور مثال:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

برای شروع و اجرای مدل در یک رابط کاربری خوب، می‌توانید یک سرور را با موارد زیر راه‌اندازی کنید:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

این یک سرور ایجاد می‌کند که به شما امکان می‌دهد از طریق یک رابط ( http://localhost:8080 ) یا با دسترسی به OpenAI-endpoint ( http://localhost:8080/v1 ) به مدل خود دسترسی داشته باشید.

برای اطلاعات بیشتر و دستورالعمل‌های مربوط به نحوه استفاده از llama.cpp با Gemma، به مخزن رسمی مراجعه کنید:

llama.cpp در گیت‌هاب