Pensiero di Gemini

I modelli delle serie Gemini 3 e 2.5 utilizzano un "processo di pensiero" che migliora significativamente le loro capacità di ragionamento e pianificazione in più passaggi, rendendoli molto efficaci per attività complesse come programmazione, matematica avanzata e analisi dei dati.

Quando utilizzi un modello di ragionamento, Gemini ragiona internamente prima di rispondere. L'API Interactions mostra questo ragionamento tramite i passaggi thought, passaggi dedicati che vengono visualizzati in ordine cronologico insieme alle chiamate di funzioni, agli input dell'utente o agli output del modello nell'array steps.

Ogni passaggio del pensiero contiene due campi:

Campo Obbligatorio Descrizione
signature ✅ Sì Una rappresentazione criptata dello stato di ragionamento interno del modello. Sempre presente, anche quando il modello esegue un ragionamento minimo.
summary ❌ No Una serie di contenuti (testo e/o immagini) che riassumono il ragionamento. Potrebbe essere vuoto a seconda della configurazione di thinking_summaries, se il modello ha eseguito un ragionamento sufficiente o del tipo di contenuti (ad esempio, i latenti delle immagini potrebbero non avere riepiloghi di testo).

Interazioni con il pensiero

L'avvio di un'interazione con un modello di ragionamento è simile a qualsiasi altra richiesta di interazione. Specifica uno dei modelli con supporto per il pensiero nel campo model:

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Explain the concept of Occam's Razor and provide a simple, everyday example."
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: "Explain the concept of Occam's Razor and provide a simple, everyday example."
});
console.log(interaction.output_text);

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Explain the concept of Occam'\''s Razor and provide a simple example."
  }'

Riepiloghi del pensiero

I riepiloghi del pensiero forniscono informazioni sul processo di ragionamento interno del modello. Per impostazione predefinita, viene restituito solo l'output finale. Puoi attivare i riepiloghi dei pensieri con thinking_summaries:

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="What is the sum of the first 50 prime numbers?",
    generation_config={
        "thinking_summaries": "auto"
    }
)

for step in interaction.steps:
    if step.type == "thought":
        print("Thought summary:")
        if step.summary:
            for content_block in step.summary:
                if content_block.type == "text":
                    print(content_block.text)
        print()
    elif step.type == "model_output":
        for content_block in step.content:
            if content_block.type == "text":
                print("Answer:")
                print(content_block.text)
                print()

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: "What is the sum of the first 50 prime numbers?",
    generation_config: {
        thinking_summaries: "auto"
    }
});

for (const step of interaction.steps) {
    if (step.type === "thought") {
        console.log("Thought summary:");
        if (step.summary) {
            for (const contentBlock of step.summary) {
                if (contentBlock.type === "text") console.log(contentBlock.text);
            }
        }
    } else if (step.type === "model_output") {
        for (const contentBlock of step.content) {
            if (contentBlock.type === "text") {
                console.log("Answer:");
                console.log(contentBlock.text);
            }
        }
    }
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "What is the sum of the first 50 prime numbers?",
    "generation_config": {
      "thinking_summaries": "auto"
    }
  }'

In questi casi, un blocco di pensieri può contenere solo una firma senza riepilogo:

  • Richieste semplici, in cui il modello non ha ragionato abbastanza per generare un riepilogo
  • thinking_summaries: "none", dove i riepiloghi sono disattivati in modo esplicito
  • Alcuni tipi di contenuti dei pensieri, come le immagini, potrebbero non avere riepiloghi di testo

Il codice deve sempre gestire i blocchi di pensiero in cui summary è vuoto o assente.

Streaming con il pensiero

Utilizza lo streaming per ricevere riepiloghi incrementali dei pensieri durante la generazione. I blocchi di pensiero vengono forniti utilizzando Server-Sent Events (SSE) con due tipi di delta distinti:

Tipo di delta Contiene Data di invio
thought_summary Contenuti di riepilogo di testo o immagini Uno o più delta con riepilogo incrementale
thought_signature La firma crittografica l'ultimo delta prima del giorno step.stop

Python

from google import genai

client = genai.Client()

prompt = """
Alice, Bob, and Carol each live in a different house on the same street: red, green, and blue.
Alice does not live in the red house.
Bob does not live in the green house.
Carol does not live in the red or green house.
Which house does each person live in?
"""

thoughts = ""
answer = ""

stream = client.interactions.create(
    model="gemini-3.5-flash",
    input=prompt,
    generation_config={
        "thinking_summaries": "auto"
    },
    stream=True
)

for event in stream:
    if event.event_type == "step.delta":
        if event.delta.type == "thought_summary":
            if not thoughts:
                print("Thinking...")
            summary_text = event.delta.content.text
            print(f"[Thought] {summary_text}", end="")
            thoughts += summary_text
        elif event.delta.type == "text" and event.delta.text:
            if not answer:
                print("\nAnswer:")
            print(event.delta.text, end="")
            answer += event.delta.text

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

const prompt = `Alice, Bob, and Carol each live in a different house on the same
street: red, green, and blue. Alice does not live in the red house.
Bob does not live in the green house.
Carol does not live in the red or green house.
Which house does each person live in?`;

let thoughts = "";
let answer = "";

const stream = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: prompt,
    generation_config: {
        thinking_summaries: "auto"
    },
    stream: true
});

for await (const event of stream) {
    if (event.event_type === "step.delta") {
        if (event.delta.type === "thought_summary") {
            if (!thoughts) console.log("Thinking...");
            const text = event.delta.content?.text || "";
            process.stdout.write(`[Thought] ${text}`);
            thoughts += text;
        } else if (event.delta.type === "text" && event.delta.text) {
            if (!answer) console.log("\nAnswer:");
            process.stdout.write(event.delta.text);
            answer += event.delta.text;
        }
    }
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  --no-buffer \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Alice, Bob, and Carol each live in a different house on the same street: red, green, and blue. Alice does not live in the red house. Bob does not live in the green house. Carol does not live in the red or green house. Which house does each person live in?",
    "generation_config": {
      "thinking_summaries": "auto"
    },
    "stream": true
  }'

La risposta di streaming utilizza Server-Sent Events (SSE) ed è composta da passaggi ed eventi, ad esempio:

event: interaction.created
data: {"interaction":{"id":"v1_xxx","status":"in_progress","object":"interaction","model":"gemini-3.5-flash"},"event_type":"interaction.created"}

event: step.start
data: {"index":0,"step":{"signature":"","summary":[{"text":"**Evaluating the clues**\n\nI'm considering...","type":"text"}],"type":"thought"},"event_type":"step.start"}

event: step.delta
data: {"index":0,"delta":{"signature":"EpoGCpcGAXLI2nx/...","type":"thought_signature"},"event_type":"step.delta"}

event: step.stop
data: {"index":0,"event_type":"step.stop"}

event: step.start
data: {"index":1,"step":{"content":[{"text":"Based on the clues provided, here","type":"text"}],"type":"model_output"},"event_type":"step.start"}

event: step.delta
data: {"index":1,"delta":{"text":" is the answer to your question...","type":"text"},"event_type":"step.delta"}

event: step.stop
data: {"index":1,"event_type":"step.stop"}

event: interaction.completed
data: {"interaction":{"id":"v1_xxx","status":"completed","usage":{"total_tokens":530,"total_input_tokens":62,"total_output_tokens":171,"total_thought_tokens":297}},"event_type":"interaction.completed"}

event: done
data: [DONE]

Controllare il pensiero

I modelli Gemini si impegnano nel pensiero dinamico per impostazione predefinita, regolando automaticamente la quantità di ragionamento in base alla complessità della richiesta. Puoi controllare questo comportamento utilizzando il parametro thinking_level.

Modello Default Thinking Livelli supportati
gemini-3.1-pro-preview On (alta) basso, medio, alto
gemini-3-flash-preview On (alta) basso, medio, alto
gemini-3-pro-preview On (alta) basso, alto
gemini-3.5-flash On (medio) basso, medio, alto
gemini-2.5-pro On basso, medio, alto
gemini-2.5-flash On basso, medio, alto
gemini-2.5-flash-lite Off basso, medio, alto

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Provide a list of 3 famous physicists and their key contributions",
    generation_config={
        "thinking_level": "low"
    }
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: "Provide a list of 3 famous physicists and their key contributions",
    generation_config: {
        thinking_level: "low"
    }
});
console.log(interaction.output_text);

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Provide a list of 3 famous physicists and their key contributions",
    "generation_config": {
      "thinking_level": "low"
    }
  }'

Firme del pensiero

Le firme del pensiero sono rappresentazioni criptate del ragionamento interno del modello. Sono tenuti a mantenere la continuità del ragionamento nelle interazioni multi-turno.

L'API Interactions semplifica la gestione delle firme dei pensieri molto più dell'API generateContent.

Per impostazione predefinita, quando utilizzi l'API Interactions in modalità stateful (impostando store: true e passando previous_interaction_id nei turni successivi), il server gestisce automaticamente lo stato della conversazione, inclusi tutti i blocchi di pensiero e le firme. In questa modalità, non devi fare nulla in merito alle firme. Vengono gestiti interamente lato server.

Modalità stateless

Se gestisci autonomamente lo stato della conversazione (modalità stateless) e trasmetti la cronologia completa di input e output in ogni richiesta:

  • DEVI sempre inviare nuovamente tutti i blocchi thought esattamente come sono stati ricevuti dal modello.
  • NON rimuovere o modificare i blocchi di pensiero dalla cronologia, in quanto contengono le firme necessarie al modello per continuare il suo ragionamento.
  • Quando cambi modello all'interno di una sessione, devi comunque inviare nuovamente i blocchi di pensiero del modello precedente. Il backend gestisce la compatibilità.

Prezzi

Quando la funzionalità di pensiero è attiva, il prezzo della risposta è la somma dei token di output e dei token di pensiero. Puoi ottenere il numero totale di token di pensiero generati dal campo total_thought_tokens.

Python

print("Thoughts tokens:", interaction.usage.total_thought_tokens)
print("Output tokens:", interaction.usage.total_output_tokens)

JavaScript

console.log(`Thoughts tokens: ${interaction.usage.total_thought_tokens}`);
console.log(`Output tokens: ${interaction.usage.total_output_tokens}`);

I modelli di pensiero generano pensieri completi per migliorare la qualità della risposta finale e poi restituiscono riepiloghi per fornire informazioni sul processo di pensiero. I prezzi si basano sui token di pensiero completi che il modello deve generare, anche se dall'API viene restituito solo il riepilogo.

Per saperne di più sui token, consulta la guida Conteggio dei token.

Best practice

Utilizza i modelli di pensiero in modo efficiente seguendo queste linee guida.

  • Esamina il ragionamento: analizza i riepiloghi dei pensieri per comprendere gli errori e migliorare i prompt.
  • Controllare il budget di pensiero: chiedi al modello di pensare meno per ottenere output più brevi e risparmiare token.
  • Attività semplici: utilizza il pensiero di basso livello per il recupero o la classificazione di fatti (ad es. "Dove è stata fondata DeepMind?").
  • Moderare le attività: utilizza il pensiero predefinito per confrontare concetti o ragionamenti creativi (ad es. confronta auto elettriche e ibride).
  • Attività complesse: utilizza il ragionamento massimo per programmazione avanzata, matematica o pianificazione in più fasi (ad es. risolvi problemi matematici AIME).

Passaggi successivi