Gemma 4 को रिलीज़ कर दिया गया है. इसमें टेक्स्ट, ऑडियो, और इमेज के ज़रिए इनपुट दिया जा सकता है. साथ ही, इसमें 2.56 लाख टोकन तक की लंबी कॉन्टेक्स्ट विंडो है! ज़्यादा जानें

Llama.cpp की मदद से Gemma को चलाना

llama.cpp एक लोकप्रिय ओपन-सोर्स लाइब्रेरी है. इसे स्थानीय इनफ़रेंस को बेहतर बनाने के लिए डिज़ाइन किया गया है.

तुरंत शुरू करना

llama.cpp का पहले से बना हुआ वर्शन इंस्टॉल करें

निर्देश का उदाहरण:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

मॉडल को शुरू करने और उसे बेहतर इंटरफ़ेस में चलाने के लिए, इस कमांड का इस्तेमाल करके सर्वर शुरू करें:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

इससे एक ऐसा सर्वर बनता है जिसकी मदद से, अपने मॉडल को इंटरफ़ेस (http://localhost:8080) या OpenAI-एंडपॉइंट (http://localhost:8080/v1) को ऐक्सेस करके ऐक्सेस किया जा सकता है.

Gemma के साथ llama.cpp इस्तेमाल करने के तरीके के बारे में ज़्यादा जानकारी और निर्देशों के लिए, आधिकारिक रिपॉज़िटरी देखें:

GitHub पर llama.cpp