Llama.cpp की मदद से Gemma को चलाना

llama.cpp एक लोकप्रिय ओपन-सोर्स लाइब्रेरी है. इसे स्थानीय इनफ़रेंस को बेहतर बनाने के लिए डिज़ाइन किया गया है.

तुरंत शुरू करना

llama.cpp का पहले से बना हुआ वर्शन इंस्टॉल करें

निर्देश का उदाहरण:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

मॉडल को शुरू करने और उसे बेहतर इंटरफ़ेस में चलाने के लिए, इस कमांड का इस्तेमाल करके सर्वर शुरू करें:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

इससे एक ऐसा सर्वर बनता है जिसकी मदद से, अपने मॉडल को इंटरफ़ेस (http://localhost:8080) या OpenAI-एंडपॉइंट (http://localhost:8080/v1) को ऐक्सेस करके ऐक्सेस किया जा सकता है.

Gemma के साथ llama.cpp इस्तेमाल करने के तरीके के बारे में ज़्यादा जानकारी और निर्देशों के लिए, आधिकारिक रिपॉज़िटरी देखें:

GitHub पर llama.cpp