Bisedë me Gemmën: biseda bazë dhe me shumë kthesa

Modelet e Gemma-s të përshtatura sipas udhëzimeve (IT) janë të dizajnuara për të trajtuar ndërveprimet bisedore, nga shkëmbimet e pyetjeve dhe përgjigjeve të vetme deri te dialogët e zgjatur me shumë kthesa. Ky udhëzues shpjegon se si të formatohen kërkesat për bisedë me Gemma-n dhe si të ndërtohen biseda me shumë kthesa.

Formati i kërkesës

Modelet Gemma IT përdorin tokena të posaçëm kontrolli për të përcaktuar radhët e bisedës. Këto tokena kërkohen kur dërgohen kërkesa direkt te tokenizuesi, por zakonisht aplikohen automatikisht nga kornizat e ndërgjegjshme për bisedën.

Udhëzim me një kthesë

Një kërkesë me një kthesë të vetme përbëhet nga një mesazh përdoruesi dhe një shënues përgjigjeje modeli:

<start_of_turn>user
What is the speed of light?<end_of_turn>
<start_of_turn>model

Udhëzim me shumë kthesa

Bisedat me shumë kthesa lidhin shkëmbime të shumëfishta. Çdo kthesë është e mbështjellë me të njëjtat tokena kontrolli:

<start_of_turn>user
What is the speed of light?<end_of_turn>
<start_of_turn>model
The speed of light in a vacuum is approximately 299,792,458 meters per second.<end_of_turn>
<start_of_turn>user
How long does it take light to reach Earth from the Sun?<end_of_turn>
<start_of_turn>model

Modeli gjeneron një përgjigje për kthesën përfundimtare <start_of_turn>model .

Udhëzimet e sistemit

Modelet e Gemma-s të akorduara sipas udhëzimeve janë projektuar për të funksionuar vetëm me dy role: user dhe model . Prandaj, roli system ose një kthesë sistemi nuk mbështetet.

Në vend që të përdorni një rol të veçantë sistemi, jepni udhëzime në nivel sistemi direkt brenda kërkesës fillestare të përdoruesit. Aftësitë e ndjekjes së udhëzimeve të modelit i lejojnë Gemmës të interpretojë udhëzimet në mënyrë efektive. Për shembull:

Modelet Gemma 3 dhe më të reja mbështesin udhëzimet e sistemit që përcaktojnë sjelljen, personalitetin ose kufizimet e modelit për të gjithë bisedën. Vendosni udhëzimet e sistemit para kthesës së parë të përdoruesit:

<start_of_turn>user
Only reply like a pirate.

What is the answer to life the universe and everything?<end_of_turn>
<start_of_turn>model
Arrr, 'tis 42,<end_of_turn>

Për më shumë detaje, shihni Udhëzimet dhe udhëzimet e sistemit .

Mbështetje për kornizën

Shumica e kornizave trajtojnë formatimin e bisedës automatikisht përmes shabllonit të tyre të bisedës ose API-t të bisedës:

Transformues me Fytyrë Përqafuese

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-1b-it")
model = AutoModelForCausalLM.from_pretrained("google/gemma-3-1b-it")

messages = [
    {"role": "user", "content": "What is machine learning?"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    return_tensors="pt",
    add_generation_prompt=True,
)

outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Ollama

ollama run gemma3:1b "What is machine learning?"

Për bisedë me shumë kthesa, përdorni modalitetin interaktiv:

ollama run gemma3:1b
>>> What is machine learning?
...
>>> How is it different from deep learning?

API-të e pajtueshme me OpenAI

Kur përdorni korniza që ekspozojnë një API të pajtueshëm me OpenAI (siç janë vLLM, llama.cpp ose LM Studio), kaloni mesazhe duke përdorur formatin standard messages :

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="unused")

response = client.chat.completions.create(
    model="google/gemma-3-1b-it",
    messages=[
        {"role": "user", "content": "What is machine learning?"},
    ],
)
print(response.choices[0].message.content)

Hapat e ardhshëm