Gemma के इंस्ट्रक्शन-ट्यून (आईटी) मॉडल को बातचीत करने के लिए डिज़ाइन किया गया है. ये मॉडल, एक सवाल और उसके जवाब से लेकर कई बार होने वाली लंबी बातचीत तक को हैंडल कर सकते हैं. इस गाइड में, Gemma से चैट करने के लिए प्रॉम्प्ट को फ़ॉर्मैट करने का तरीका बताया गया है. साथ ही, इसमें एक से ज़्यादा बार बातचीत करने का तरीका भी बताया गया है.
प्रॉम्प्ट का फ़ॉर्मैट
Gemma के आईटी मॉडल, बातचीत के टर्न को अलग-अलग करने के लिए, खास कंट्रोल टोकन का इस्तेमाल करते हैं. इन टोकन की ज़रूरत तब होती है, जब प्रॉम्प्ट को सीधे तौर पर टोकनाइज़र को भेजा जाता है. हालांकि, चैट की सुविधा वाले फ़्रेमवर्क इन्हें आम तौर पर अपने-आप लागू कर देते हैं.
सिंगल-टर्न प्रॉम्प्ट
सिंगल-टर्न प्रॉम्प्ट में, उपयोगकर्ता का एक मैसेज और मॉडल के जवाब का मार्कर होता है:
<start_of_turn>user
What is the speed of light?<end_of_turn>
<start_of_turn>model
एक से ज़्यादा बार बातचीत करने के लिए प्रॉम्प्ट
एक से ज़्यादा बार बातचीत करने की सुविधा में, कई एक्सचेंज शामिल होते हैं. हर टर्न को एक ही कंट्रोल टोकन में रैप किया जाता है:
<start_of_turn>user
What is the speed of light?<end_of_turn>
<start_of_turn>model
The speed of light in a vacuum is approximately 299,792,458 meters per second.<end_of_turn>
<start_of_turn>user
How long does it take light to reach Earth from the Sun?<end_of_turn>
<start_of_turn>model
मॉडल, आखिरी <start_of_turn>model टर्न के लिए जवाब जनरेट करता है.
सिस्टम के निर्देश
Gemma के निर्देश के मुताबिक काम करने वाले मॉडल, सिर्फ़ दो भूमिकाओं के साथ काम करने के लिए डिज़ाइन किए गए हैं:
user और model. इसलिए, system की भूमिका या सिस्टम टर्न का इस्तेमाल नहीं किया जा सकता.
सिस्टम की भूमिका के लिए अलग से निर्देश देने के बजाय, उपयोगकर्ता के शुरुआती प्रॉम्प्ट में ही सिस्टम लेवल के निर्देश दें. मॉडल को निर्देश देने की सुविधाओं की मदद से, Gemma निर्देशों को बेहतर तरीके से समझ पाती है. उदाहरण के लिए:
Gemma 3 और इसके बाद के मॉडल, सिस्टम के निर्देशों के साथ काम करते हैं. इन निर्देशों से, पूरी बातचीत के दौरान मॉडल के व्यवहार, पर्सोना या सीमाओं के बारे में पता चलता है. सिस्टम के निर्देश को उपयोगकर्ता के पहले जवाब से पहले रखें:
<start_of_turn>user
Only reply like a pirate.
What is the answer to life the universe and everything?<end_of_turn>
<start_of_turn>model
Arrr, 'tis 42,<end_of_turn>
ज़्यादा जानकारी के लिए, प्रॉम्प्ट और सिस्टम के निर्देश देखें.
फ़्रेमवर्क सपोर्ट
ज़्यादातर फ़्रेमवर्क, चैट फ़ॉर्मैटिंग को अपने-आप हैंडल करते हैं. इसके लिए, वे चैट टेंप्लेट या Conversation API का इस्तेमाल करते हैं:
Hugging Face Transformers
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-1b-it")
model = AutoModelForCausalLM.from_pretrained("google/gemma-3-1b-it")
messages = [
{"role": "user", "content": "What is machine learning?"},
]
inputs = tokenizer.apply_chat_template(
messages,
return_tensors="pt",
add_generation_prompt=True,
)
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Ollama
ollama run gemma3:1b "What is machine learning?"
एक से ज़्यादा बार की जाने वाली बातचीत के लिए, इंटरैक्टिव मोड का इस्तेमाल करें:
ollama run gemma3:1b
>>> What is machine learning?
...
>>> How is it different from deep learning?
OpenAI के साथ काम करने वाले एपीआई
OpenAI के साथ काम करने वाले एपीआई (जैसे कि vLLM, llama.cpp या LM Studio) का इस्तेमाल करते समय, स्टैंडर्ड messages फ़ॉर्मैट का इस्तेमाल करके मैसेज पास करें:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="unused")
response = client.chat.completions.create(
model="google/gemma-3-1b-it",
messages=[
{"role": "user", "content": "What is machine learning?"},
],
)
print(response.choices[0].message.content)