Gemini Deep Research ist jetzt in der Vorabversion mit Funktionen wie gemeinsamer Planung, Visualisierung und MCP-Unterstützung verfügbar.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini API

Die Gemini Interactions API ist eine experimentelle API, mit der Entwickler generative KI-Anwendungen mit Gemini-Modellen erstellen können. Gemini ist unser leistungsstärkstes Modell, das von Grund auf multimodal konzipiert wurde. Es kann generalisieren und problemlos verschiedene Arten von Informationen wie Sprache, Bilder, Audio, Video und Code verstehen, verarbeiten und kombinieren. Sie können die Gemini API für Anwendungsfälle wie das Ableiten von Text und Bildern, die Generierung von Inhalten, Dialog-Agents, Zusammenfassungs- und Klassifizierungssysteme und vieles mehr verwenden.

Als Markdown ansehen OpenAPI-Spezifikation ansehen

Interaktion erstellen

post https://generativelanguage.googleapis.com/v1beta/interactions

Erstellt eine neue Interaktion.

Anfragetext
Antwort

Anfragetext

Der Anfragetext enthält Daten mit folgender Struktur:

model ModelOption (optional)

Der Name des `Model`, das zum Generieren der Interaktion verwendet wurde.
Erforderlich, wenn „agent“ nicht angegeben ist.

Mögliche Werte:

gemini-2.5-computer-use-preview-10-2025
Ein agentisches Funktionsmodell, das für die direkte Interaktion mit der Benutzeroberfläche entwickelt wurde und es Gemini ermöglicht, digitale Umgebungen wahrzunehmen und darin zu navigieren.
gemini-2.5-flash
Unser erstes Hybrid-Reasoning-Modell, das ein Kontextfenster mit 1 Million Tokens unterstützt und über Denkbudgets verfügt.
gemini-2.5-flash-image
Unser natives Modell für die Bildgenerierung, das für Geschwindigkeit, Flexibilität und kontextuelles Verständnis optimiert ist. Die Preise für Texteingabe und -ausgabe entsprechen denen für 2.5 Flash.
gemini-2.5-flash-lite
Unser kleinstes und kostengünstigstes Modell, das für die Nutzung im großen Maßstab entwickelt wurde.
gemini-2.5-flash-lite-preview-09-2025
Das neueste Modell basiert auf Gemini 2.5 Flash Lite und ist für Kosteneffizienz, hohen Durchsatz und hohe Qualität optimiert.
gemini-2.5-flash-native-audio-preview-12-2025
Unsere nativen Audiomodelle sind für Audioausgaben mit höherer Qualität optimiert und bieten ein besseres Tempo, natürlichere Stimmen, mehr Ausführlichkeit und eine passendere Stimmungslage.
gemini-2.5-flash-preview-09-2025
Das neueste Modell, das auf dem Modell 2.5 Flash basiert. 2.5 Flash Preview eignet sich am besten für die Verarbeitung großer Mengen, Aufgaben mit niedriger Latenz und hohem Volumen, die Denkprozesse erfordern, sowie für agentenbasierte Anwendungsfälle.
gemini-2.5-flash-preview-tts
Unser 2.5 Flash-Modell für die Sprachausgabe, das für leistungsstarke, latenzarme und steuerbare Sprachgenerierung optimiert ist.
gemini-2.5-pro
Unser hochmodernes Mehrzweckmodell, das sich besonders gut für Programmier- und komplexe Logikaufgaben eignet.
gemini-2.5-pro-preview-tts
Unser 2.5 Pro-Modell für die Sprachsynthese ist für die leistungsstarke, latenzarme Sprachgenerierung optimiert und bietet natürlichere Ausgaben und einfacher zu steuernde Prompts.
gemini-3-flash-preview
Unser intelligentestes Modell, das auf Geschwindigkeit ausgelegt ist und bahnbrechende Intelligenz mit überlegener Suche und Fundierung kombiniert.
gemini-3-pro-image-preview
Hochmodernes Modell für die Bildgenerierung und ‑bearbeitung.
gemini-3-pro-preview
Unser bisher intelligentestes Modell mit modernsten Funktionen für logische Schlussfolgerungen und multimodales Verstehen sowie leistungsstarken Funktionen für Agent- und Vibe-Coding.
gemini-3.1-pro-preview
Unser neuestes, hochmodernes Modell für logische Schlussfolgerungen mit beispielloser Tiefe und Nuance sowie leistungsstarken multimodalen und Programmierfunktionen.
gemini-3.1-flash-image-preview
Visuelle Intelligenz auf Profiniveau mit der Effizienz von Flash und realitätsnahen Generierungsfunktionen.
gemini-3.1-flash-lite-preview
Unser kostengünstigstes Modell, das für agentische Aufgaben mit hohem Volumen, Übersetzungen und einfache Datenverarbeitung optimiert ist.
gemini-3.1-flash-tts-preview
Gemini 3.1 Flash TTS: Leistungsstarke Sprachgenerierung mit geringer Latenz. Sie können sich auf natürliche Ausgaben, steuerbare Prompts und neue ausdrucksstarke Audio-Tags für eine präzise Steuerung der Sprachausgabe freuen.
lyria-3-clip-preview
Unser Modell zur Musikgenerierung mit geringer Latenz ist für Audio-Clips mit hoher Wiedergabetreue und präzise rhythmische Steuerung optimiert.
lyria-3-pro-preview
Unser fortschrittliches, generatives Modell für ganze Songs mit umfassendem Verständnis für Komposition, optimiert für präzise strukturelle Steuerung und komplexe Übergänge zwischen verschiedenen Musikstilen.

agent AgentOption (optional)

Der Name des `Agent`, der zum Generieren der Interaktion verwendet wurde.
Erforderlich, wenn „model“ nicht angegeben ist.

Mögliche Werte:

deep-research-pro-preview-12-2025
Gemini Deep Research-Agent
deep-research-preview-04-2026
Gemini Deep Research-Agent
deep-research-max-preview-04-2026
Gemini Deep Research Max-Agent

input Content oder Array (Content) oder Array (Step) oder String (erforderlich)

Die Eingaben für die Interaktion (gemeinsam für Modell und Agent).

system_instruction String (optional)

Systemanweisung für die Interaktion.

tools array (Tool) (optional)

Eine Liste der Tool-Deklarationen, die das Modell während der Interaktion aufrufen kann.

response_format ResponseFormat oder ResponseFormatList (optional)

Erzwingt, dass die generierte Antwort ein JSON-Objekt ist, das dem in diesem Feld angegebenen JSON-Schema entspricht.

response_mime_type string (optional)

Der MIME-Typ der Antwort. Erforderlich, wenn „response_format“ festgelegt ist.

stream boolean (optional)

Nur Eingabe. Ob die Interaktion gestreamt wird.

store boolean (optional)

Nur Eingabe. Gibt an, ob die Antwort und die Anfrage für den späteren Abruf gespeichert werden sollen.

background boolean (optional)

Nur Eingabe. Gibt an, ob die Modellinteraktion im Hintergrund ausgeführt werden soll.

generation_config GenerationConfig (optional)

Modellkonfiguration
Konfigurationsparameter für die Modellinteraktion.
Alternative zu „agent_config“. Gilt nur, wenn „model“ festgelegt ist.

Felder

temperature number (optional)

Steuert die Zufälligkeit der Ausgabe.

top_p number (optional)

Die maximale kumulative Wahrscheinlichkeit der Tokens, die beim Sampling berücksichtigt werden sollen.

seed integer (optional)

Seed, der beim Decodieren für die Reproduzierbarkeit verwendet wird.

stop_sequences array (string) (optional)

Eine Liste von Zeichenfolgen, die die Ausgabeinteraktion beenden.

thinking_level ThinkingLevel (optional)

Die Anzahl der Denk-Tokens, die das Modell generieren soll.

Mögliche Werte:

minimal
low
medium
high

thinking_summaries ThinkingSummaries (optional)

Gibt an, ob Zusammenfassungen der Überlegungen in die Antwort aufgenommen werden sollen.

Mögliche Werte:

auto
none

max_output_tokens Ganzzahl (optional)

Die maximale Anzahl von Tokens, die in der Antwort enthalten sein sollen.

speech_config SpeechConfig (optional)

Konfiguration für die Sprachinteraktion.

Felder

voice string (optional)

Die Stimme des Sprechers.

language String (optional)

Die Sprache der Rede.

speaker string (optional)

Der Name des Sprechers muss mit dem Namen des Sprechers im Prompt übereinstimmen.

image_config ImageConfig (optional)

Konfiguration für die Bildinteraktion.

Felder

aspect_ratio enum (string) (optional)

Keine Beschreibung vorhanden.

Mögliche Werte:

1:1
2:3
3:2
3:4
4:3
4:5
5:4
9:16
16:9
21:9
1:8
8:1
1:4
4:1

image_size enum (string) (optional)

Keine Beschreibung vorhanden.

Mögliche Werte:

1K
2K
4K
512

tool_choice ToolChoiceConfig oder ToolChoiceType (optional)

Die Konfiguration der Toolauswahl.

agent_config object (optional)

Agent Configuration (Agent-Konfiguration)
Konfiguration für den Agent.
Alternative zu `generation_config`. Gilt nur, wenn `agent` festgelegt ist.

Mögliche Typen

Polymorpher Diskriminator: type

DynamicAgentConfig

Konfiguration für dynamische Agenten.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "dynamic" gesetzt.

DeepResearchAgentConfig

Konfiguration für den Deep Research-Agenten.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "deep-research" gesetzt.

thinking_summaries ThinkingSummaries (optional)

Gibt an, ob Zusammenfassungen der Überlegungen in die Antwort aufgenommen werden sollen.

Mögliche Werte:

auto
none

visualization enum (string) (optional)

Gibt an, ob Visualisierungen in die Antwort aufgenommen werden sollen.

Mögliche Werte:

off
auto

collaborative_planning boolean (optional)

Ermöglicht die Human-in-the-Loop-Planung für den Deep Research-Agenten. Wenn diese Option auf „true“ gesetzt ist, enthält die Antwort des Deep Research-Agents einen Rechercheplan. Der Agent fährt dann nur fort, wenn der Nutzer den Plan im nächsten Zug bestätigt.

previous_interaction_id String (optional)

Die ID der vorherigen Interaktion, falls vorhanden.

response_modalities ResponseModality (optional)

Die angeforderten Modalitäten der Antwort (TEXT, IMAGE, AUDIO).

Mögliche Werte:

text
image
audio
video
document

service_tier ServiceTier (optional)

Die Serviceebene für die Interaktion.

Mögliche Werte:

flex
standard
priority

webhook_config WebhookConfig (optional)

Optional. Webhook-Konfiguration für den Empfang von Benachrichtigungen, wenn die Interaktion abgeschlossen ist.

Felder

uris Array (String) (optional)

Optional. Wenn diese Webhook-URIs festgelegt sind, werden sie anstelle der registrierten Webhooks für Webhook-Ereignisse verwendet.

user_metadata object (optional)

Optional. Die Nutzermetadaten, die bei jeder Ereignisausgabe an die Webhooks zurückgegeben werden.

Antwort

Gibt eine Interaction-Ressource zurück.

Einfache Anfrage

Beispielantwort

{
  "created": "2025-11-26T12:25:15Z",
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "object": "interaction",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?"
        }
      ]
    }
  ],
  "status": "completed",
  "updated": "2025-11-26T12:25:15Z",
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 7
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 7,
    "total_output_tokens": 20,
    "total_thought_tokens": 22,
    "total_tokens": 49,
    "total_tool_use_tokens": 0
  }
}

In mehreren Schritten

Beispielantwort

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "The capital of France is Paris."
        }
      ]
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 50
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 50,
    "total_output_tokens": 10,
    "total_thought_tokens": 0,
    "total_tokens": 60,
    "total_tool_use_tokens": 0
  }
}

Bildeingabe

Beispielantwort

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard."
        }
      ]
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 10
      },
      {
        "modality": "image",
        "tokens": 258
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 268,
    "total_output_tokens": 20,
    "total_thought_tokens": 0,
    "total_tokens": 288,
    "total_tool_use_tokens": 0
  }
}

Funktionsaufrufe

Beispielantwort

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "requires_action",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "steps": [
    {
      "type": "function_call",
      "id": "gth23981",
      "name": "get_weather",
      "arguments": {
        "location": "Boston, MA"
      }
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 100
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 100,
    "total_output_tokens": 25,
    "total_thought_tokens": 0,
    "total_tokens": 125,
    "total_tool_use_tokens": 50
  }
}

Deep Research

Beispielantwort

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "agent": "deep-research-pro-preview-12-2025",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "Here is a comprehensive research report on the current state of cancer research..."
        }
      ]
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 20
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 20,
    "total_output_tokens": 1000,
    "total_thought_tokens": 500,
    "total_tokens": 1520,
    "total_tool_use_tokens": 0
  }
}

Interaktion abrufen

get https://generativelanguage.googleapis.com/v1beta/interactions/{id}

Ruft die vollständigen Details einer einzelnen Interaktion anhand ihrer `Interaction.id` ab.

Pfad-/Suchparameter
Antwort

Pfad-/Suchparameter

id String (erforderlich)

Die eindeutige ID der abzurufenden Interaktion.

stream boolean (optional)

Bei „true“ werden die generierten Inhalte inkrementell gestreamt.

Standardeinstellung: False

last_event_id string (optional)

Optional. Wenn festgelegt, wird der Interaktionsstream ab dem nächsten Chunk nach dem Ereignis fortgesetzt, das durch die Ereignis-ID markiert ist. Kann nur verwendet werden, wenn „stream“ auf „true“ gesetzt ist.

include_input boolean (optional)

Wenn diese Option auf „true“ gesetzt ist, wird die Eingabe in die Antwort aufgenommen.

Standardeinstellung: False

api_version String (optional)

Zu verwendende API-Version.

Antwort

Gibt eine Interaction-Ressource zurück.

Interaktion abrufen

Beispielantwort

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:25:15Z",
  "updated": "2025-11-26T12:25:15Z",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "I'm doing great, thank you for asking! How can I help you today?"
        }
      ]
    }
  ]
}

Interaktion löschen

delete https://generativelanguage.googleapis.com/v1beta/interactions/{id}

Löscht die Interaktion anhand der ID.

Pfad-/Suchparameter
Antwort

Pfad-/Suchparameter

id String (erforderlich)

Die eindeutige Kennung der zu löschenden Interaktion.

api_version String (optional)

Zu verwendende API-Version.

Antwort

Bei Erfolg ist die Antwort leer.

Interaktion löschen

Interaktion abbrechen

post https://generativelanguage.googleapis.com/v1beta/interactions/{id}/cancel

Bricht eine Interaktion anhand der ID ab. Das gilt nur für Hintergrundinteraktionen, die noch laufen.

Pfad-/Suchparameter
Antwort

Pfad-/Suchparameter

id String (erforderlich)

Die eindeutige ID der abzubrechenden Interaktion.

api_version String (optional)

Zu verwendende API-Version.

Antwort

Gibt eine Interaction-Ressource zurück.

Interaktion abbrechen

Beispielantwort

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "agent": "deep-research-pro-preview-12-2025",
  "status": "cancelled",
  "object": "interaction",
  "created": "2025-11-26T12:25:15Z",
  "updated": "2025-11-26T12:25:15Z"
}

Ressourcen

Interaktion

Die Interaction-Ressource.

Felder

model ModelOption (optional)

Der Name des `Model`, das zum Generieren der Interaktion verwendet wurde.

Mögliche Werte:

gemini-2.5-computer-use-preview-10-2025
Ein agentisches Funktionsmodell, das für die direkte Interaktion mit der Benutzeroberfläche entwickelt wurde und es Gemini ermöglicht, digitale Umgebungen wahrzunehmen und darin zu navigieren.
gemini-2.5-flash
Unser erstes Hybrid-Reasoning-Modell, das ein Kontextfenster mit 1 Million Tokens unterstützt und über Denkbudgets verfügt.
gemini-2.5-flash-image
Unser natives Modell für die Bildgenerierung, das für Geschwindigkeit, Flexibilität und kontextuelles Verständnis optimiert ist. Die Preise für Texteingabe und -ausgabe entsprechen denen für 2.5 Flash.
gemini-2.5-flash-lite
Unser kleinstes und kostengünstigstes Modell, das für die Nutzung im großen Maßstab entwickelt wurde.
gemini-2.5-flash-lite-preview-09-2025
Das neueste Modell basiert auf Gemini 2.5 Flash Lite und ist für Kosteneffizienz, hohen Durchsatz und hohe Qualität optimiert.
gemini-2.5-flash-native-audio-preview-12-2025
Unsere nativen Audiomodelle sind für Audioausgaben mit höherer Qualität optimiert und bieten ein besseres Tempo, natürlichere Stimmen, mehr Ausführlichkeit und eine passendere Stimmungslage.
gemini-2.5-flash-preview-09-2025
Das neueste Modell, das auf dem Modell 2.5 Flash basiert. 2.5 Flash Preview eignet sich am besten für die Verarbeitung großer Mengen, Aufgaben mit niedriger Latenz und hohem Volumen, die Denkprozesse erfordern, sowie für agentenbasierte Anwendungsfälle.
gemini-2.5-flash-preview-tts
Unser 2.5 Flash-Modell für die Sprachausgabe, das für leistungsstarke, latenzarme und steuerbare Sprachgenerierung optimiert ist.
gemini-2.5-pro
Unser hochmodernes Mehrzweckmodell, das sich besonders gut für Programmier- und komplexe Logikaufgaben eignet.
gemini-2.5-pro-preview-tts
Unser 2.5 Pro-Modell für die Sprachsynthese ist für die leistungsstarke, latenzarme Sprachgenerierung optimiert und bietet natürlichere Ausgaben und einfacher zu steuernde Prompts.
gemini-3-flash-preview
Unser intelligentestes Modell, das auf Geschwindigkeit ausgelegt ist und bahnbrechende Intelligenz mit überlegener Suche und Fundierung kombiniert.
gemini-3-pro-image-preview
Hochmodernes Modell für die Bildgenerierung und ‑bearbeitung.
gemini-3-pro-preview
Unser bisher intelligentestes Modell mit modernsten Funktionen für logische Schlussfolgerungen und multimodales Verstehen sowie leistungsstarken Funktionen für Agent- und Vibe-Coding.
gemini-3.1-pro-preview
Unser neuestes, hochmodernes Modell für logische Schlussfolgerungen mit beispielloser Tiefe und Nuance sowie leistungsstarken multimodalen und Programmierfunktionen.
gemini-3.1-flash-image-preview
Visuelle Intelligenz auf Profiniveau mit der Effizienz von Flash und realitätsnahen Generierungsfunktionen.
gemini-3.1-flash-lite-preview
Unser kostengünstigstes Modell, das für agentische Aufgaben mit hohem Volumen, Übersetzungen und einfache Datenverarbeitung optimiert ist.
gemini-3.1-flash-tts-preview
Gemini 3.1 Flash TTS: Leistungsstarke Sprachgenerierung mit geringer Latenz. Sie können sich auf natürliche Ausgaben, steuerbare Prompts und neue ausdrucksstarke Audio-Tags für eine präzise Steuerung der Sprachausgabe freuen.
lyria-3-clip-preview
Unser Modell zur Musikgenerierung mit geringer Latenz ist für Audio-Clips mit hoher Wiedergabetreue und präzise rhythmische Steuerung optimiert.
lyria-3-pro-preview
Unser fortschrittliches, generatives Modell für ganze Songs mit umfassendem Verständnis für Komposition, optimiert für präzise strukturelle Steuerung und komplexe Übergänge zwischen verschiedenen Musikstilen.

agent AgentOption (optional)

Der Name des `Agent`, der zum Generieren der Interaktion verwendet wurde.

Mögliche Werte:

deep-research-pro-preview-12-2025
Gemini Deep Research-Agent
deep-research-preview-04-2026
Gemini Deep Research-Agent
deep-research-max-preview-04-2026
Gemini Deep Research Max-Agent

id String (optional)

Erforderlich. Nur Ausgabe. Eine eindeutige Kennung für den Abschluss der Interaktion.

status enum (string) (optional)

Erforderlich. Nur Ausgabe. Der Status der Interaktion.

Mögliche Werte:

in_progress
requires_action
completed
failed
cancelled
incomplete

created string (optional)

Erforderlich. Nur Ausgabe. Die Uhrzeit, zu der die Antwort erstellt wurde, im ISO 8601-Format (JJJJ-MM-TTThh:mm:ssZ).

updated string (optional)

Erforderlich. Nur Ausgabe. Die Uhrzeit, zu der die Antwort zuletzt aktualisiert wurde, im ISO 8601-Format (JJJJ-MM-TTThh:mm:ssZ).

role string (optional)

Nur Ausgabe. Die Rolle der Interaktion.

system_instruction String (optional)

Systemanweisung für die Interaktion.

tools array (Tool) (optional)

Eine Liste der Tool-Deklarationen, die das Modell während der Interaktion aufrufen kann.

usage Usage (optional)

Nur Ausgabe. Statistiken zur Tokennutzung der Interaktionsanfrage.

Felder

total_input_tokens integer (optional)

Anzahl der Tokens im Prompt (Kontext).

input_tokens_by_modality ModalityTokens (optional)

Eine Aufschlüsselung der Nutzung von Eingabetokens nach Modalität.

Felder

modality ResponseModality (optional)

Die mit der Anzahl der Tokens verknüpfte Modalität.

Mögliche Werte:

text
image
audio
video
document

Tokens Ganzzahl (optional)

Anzahl der Tokens für die Modalität.

total_cached_tokens integer (optional)

Anzahl der Tokens im im Cache gespeicherten Teil des Prompts (dem im Cache gespeicherten Inhalt).

cached_tokens_by_modality ModalityTokens (optional)

Eine Aufschlüsselung der Nutzung von zwischengespeicherten Tokens nach Modalität.

Felder

modality ResponseModality (optional)

Die mit der Anzahl der Tokens verknüpfte Modalität.

Mögliche Werte:

text
image
audio
video
document

Tokens Ganzzahl (optional)

Anzahl der Tokens für die Modalität.

total_output_tokens integer (optional)

Die Gesamtzahl der Tokens in allen generierten Antworten.

output_tokens_by_modality ModalityTokens (optional)

Eine Aufschlüsselung der Nutzung von Ausgabetokens nach Modalität.

Felder

modality ResponseModality (optional)

Die mit der Anzahl der Tokens verknüpfte Modalität.

Mögliche Werte:

text
image
audio
video
document

Tokens Ganzzahl (optional)

Anzahl der Tokens für die Modalität.

total_tool_use_tokens integer (optional)

Anzahl der Tokens in den Tool-Nutzungs-Prompts.

tool_use_tokens_by_modality ModalityTokens (optional)

Eine Aufschlüsselung der Tokennutzung für die Tool-Verwendung nach Modalität.

Felder

modality ResponseModality (optional)

Die mit der Anzahl der Tokens verknüpfte Modalität.

Mögliche Werte:

text
image
audio
video
document

Tokens Ganzzahl (optional)

Anzahl der Tokens für die Modalität.

total_thought_tokens integer (optional)

Anzahl der Tokens für Gedanken für Thinking-Modelle.

total_tokens integer (optional)

Gesamtzahl der Tokens für die Interaktionsanfrage (Prompt + Antworten + andere interne Tokens).

grounding_tool_count GroundingToolCount (optional)

Anzahl der Fundierungs-Tools.

Felder

type enum (string) (optional)

Der Typ des Grounding-Tools, das der Anzahl zugeordnet ist.

Mögliche Werte:

google_search
google_maps
retrieval

count integer (optional)

Die Anzahl der Grounding-Tools.

response_modalities ResponseModality (optional)

Die angeforderten Modalitäten der Antwort (TEXT, IMAGE, AUDIO).

Mögliche Werte:

text
image
audio
video
document

response_mime_type string (optional)

Der MIME-Typ der Antwort. Erforderlich, wenn „response_format“ festgelegt ist.

previous_interaction_id String (optional)

Die ID der vorherigen Interaktion, falls vorhanden.

service_tier ServiceTier (optional)

Die Serviceebene für die Interaktion.

Mögliche Werte:

flex
standard
priority

webhook_config WebhookConfig (optional)

Optional. Webhook-Konfiguration für den Empfang von Benachrichtigungen, wenn die Interaktion abgeschlossen ist.

Felder

uris Array (String) (optional)

Optional. Wenn diese Webhook-URIs festgelegt sind, werden sie anstelle der registrierten Webhooks für Webhook-Ereignisse verwendet.

user_metadata object (optional)

Optional. Die Nutzermetadaten, die bei jeder Ereignisausgabe an die Webhooks zurückgegeben werden.

steps Step (optional)

Nur Ausgabe. Die Schritte, aus denen die Interaktion besteht.

Mögliche Typen

Polymorpher Diskriminator: type

UserInputStep

Vom Nutzer bereitgestellte Eingaben.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "user_input" gesetzt.

content array (Content) (optional)

Keine Beschreibung vorhanden.

ModelOutputStep

Die vom Modell generierte Ausgabe.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "model_output" gesetzt.

content array (Content) (optional)

Keine Beschreibung vorhanden.

ThoughtStep

Ein Gedankenschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "thought" gesetzt.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

summary ThoughtSummaryContent (optional)

Eine Zusammenfassung des Gedankens.

Mögliche Typen

Polymorpher Diskriminator: type

TextContent

Ein Textinhaltsblock.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "text" gesetzt.

text string (erforderlich)

Erforderlich. Der Textinhalt.

annotations Annotation (optional)

Quellenangaben für modellgenerierte Inhalte.

Mögliche Typen

Polymorpher Diskriminator: type

UrlCitation

Eine URL-Zitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_citation" gesetzt.

url string (optional)

Die URL.

title string (optional)

Der Titel der URL.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

FileCitation

Eine Dateizitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_citation" gesetzt.

document_uri String (optional)

Der URI der Datei.

file_name String (optional)

Der Name der Datei.

source string (optional)

Die Quelle, die einem Teil des Texts zugeordnet ist.

custom_metadata object (optional)

Vom Nutzer bereitgestellte Metadaten zum abgerufenen Kontext.

page_number integer (optional)

Seitenzahl des zitierten Dokuments, falls zutreffend.

media_id string (optional)

Media-ID bei Bildquellenangaben, falls zutreffend.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

PlaceCitation

Eine Anmerkung mit einer Ortsangabe.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "place_citation" gesetzt.

place_id string (optional)

Die ID des Orts im Format „places/{place_id}“.

name string (optional)

Titel des Orts.

url string (optional)

URI-Referenz des Orts.

review_snippets ReviewSnippet (optional)

Ausschnitte aus Rezensionen, die zum Generieren von Antworten zu den Funktionen eines bestimmten Orts in Google Maps verwendet werden.

Felder

title string (optional)

Titel der Rezension.

url string (optional)

Ein Link, der der Nutzerrezension auf Google Maps entspricht.

review_id string (optional)

Die ID des Rezensions-Snippets.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

ImageContent

Ein Inhaltsblock mit einem Bild.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "image" gesetzt.

data string (optional)

Der Bildinhalt.

uri string (optional)

Der URI des Bildes.

mime_type enum (string) (optional)

Der MIME-Typ des Bildes.

Mögliche Werte:

image/png
image/jpeg
image/webp
image/heic
image/heif
image/gif
image/bmp
image/tiff

resolution MediaResolution (optional)

Die Auflösung der Media.

Mögliche Werte:

low
medium
high
ultra_high

FunctionCallStep

Ein Funktions-Tool-Aufrufschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "function_call" gesetzt.

name string (erforderlich)

Erforderlich. Der Name des aufzurufenden Tools.

arguments object (erforderlich)

Erforderlich. Die Argumente, die an die Funktion übergeben werden sollen.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

CodeExecutionCallStep

Aufrufschritt für die Codeausführung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "code_execution_call" gesetzt.

arguments CodeExecutionCallStepArguments (erforderlich)

Erforderlich. Die Argumente, die an die Codeausführung übergeben werden sollen.

Felder

language enum (string) (optional)

Programmiersprache des „code“.

Mögliche Werte:

python

code string (optional)

Der auszuführende Code.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

UrlContextCallStep

Schritt für den URL-Kontextaufruf.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_context_call" gesetzt.

arguments UrlContextCallStepArguments (erforderlich)

Erforderlich. Die Argumente, die an den URL-Kontext übergeben werden sollen.

Felder

urls array (string) (optional)

Die abzurufenden URLs.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

McpServerToolCallStep

MCPServer-Toolaufrufschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "mcp_server_tool_call" gesetzt.

name string (erforderlich)

Erforderlich. Der Name des aufgerufenen Tools.

server_name string (erforderlich)

Erforderlich. Der Name des verwendeten MCP-Servers.

arguments object (erforderlich)

Erforderlich. Das JSON-Objekt der Argumente für die Funktion.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

GoogleSearchCallStep

Google Suche-Anrufschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_search_call" gesetzt.

arguments GoogleSearchCallStepArguments (erforderlich)

Erforderlich. Die Argumente, die an die Google Suche übergeben werden sollen.

Felder

queries array (string) (optional)

Websuchanfragen für die anschließende Websuche.

search_type enum (string) (optional)

Der Typ der aktivierten Fundierung der Suche.

Mögliche Werte:

web_search
image_search
enterprise_web_search

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

FileSearchCallStep

Anrufschritt für die Dateisuche.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_search_call" gesetzt.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

GoogleMapsCallStep

Anrufschritt in Google Maps

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_maps_call" gesetzt.

arguments GoogleMapsCallStepArguments (optional)

Die Argumente, die an das Google Maps-Tool übergeben werden sollen.

Felder

queries array (string) (optional)

Die auszuführenden Abfragen.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

FunctionResultStep

Ergebnis eines Funktions-Tool-Aufrufs.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "function_result" gesetzt.

name string (optional)

Der Name des aufgerufenen Tools.

is_error boolean (optional)

Gibt an, ob beim Toolaufruf ein Fehler aufgetreten ist.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

result array (FunctionResultSubcontent) or string (erforderlich)

Das Ergebnis des Tool-Aufrufs.

CodeExecutionResultStep

Schritt für das Ergebnis der Codeausführung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "code_execution_result" gesetzt.

result string (erforderlich)

Erforderlich. Die Ausgabe der Codeausführung.

is_error boolean (optional)

Gibt an, ob bei der Codeausführung ein Fehler aufgetreten ist.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

UrlContextResultStep

Ergebnisschritt für den URL-Kontext.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_context_result" gesetzt.

result UrlContextResultItem (erforderlich)

Erforderlich. Die Ergebnisse des URL-Kontexts.

Felder

url string (optional)

Die abgerufene URL.

status enum (string) (optional)

Der Status des URL-Abrufs.

Mögliche Werte:

success
error
paywall
unsafe

is_error boolean (optional)

Gibt an, ob der URL-Kontext zu einem Fehler geführt hat.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

GoogleSearchResultStep

Schritt für Google-Suchergebnisse.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_search_result" gesetzt.

result GoogleSearchResultItem (erforderlich)

Erforderlich. Die Ergebnisse der Google Suche.

Felder

search_suggestions String (optional)

Webinhalts-Snippet, das in eine Webseite oder eine App-Webview eingebettet werden kann.

is_error boolean (optional)

Gibt an, ob bei der Google-Suche ein Fehler aufgetreten ist.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

McpServerToolResultStep

Schritt für das Ergebnis des MCPServer-Tools.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "mcp_server_tool_result" gesetzt.

name string (optional)

Name des Tools, das für diesen bestimmten Tool-Aufruf aufgerufen wird.

server_name string (optional)

Der Name des verwendeten MCP-Servers.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

result array (FunctionResultSubcontent) or string (erforderlich)

Die Ausgabe des MCP-Serveraufrufs. Kann einfacher Text oder Rich Content sein.

FileSearchResultStep

Schritt für Dateisuchergebnis.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_search_result" gesetzt.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

GoogleMapsResultStep

Google Maps-Ergebnisschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_maps_result" gesetzt.

result GoogleMapsResultItem (erforderlich)

Keine Beschreibung vorhanden.

Felder

places GoogleMapsResultPlaces (optional)

Keine Beschreibung vorhanden.

Felder

place_id string (optional)

Keine Beschreibung vorhanden.

name string (optional)

Keine Beschreibung vorhanden.

url string (optional)

Keine Beschreibung vorhanden.

review_snippets ReviewSnippet (optional)

Keine Beschreibung vorhanden.

Felder

title string (optional)

Titel der Rezension.

url string (optional)

Ein Link, der der Nutzerrezension auf Google Maps entspricht.

review_id string (optional)

Die ID des Rezensions-Snippets.

widget_context_token string (optional)

Keine Beschreibung vorhanden.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

input Content oder Array (Content) oder Array (Step) oder String (optional)

Die Eingabe für die Interaktion.

response_format ResponseFormat oder ResponseFormatList (optional)

Erzwingt, dass die generierte Antwort ein JSON-Objekt ist, das dem in diesem Feld angegebenen JSON-Schema entspricht.

agent_config object (optional)

Konfigurationsparameter für die Interaktion mit dem Agent.

Mögliche Typen

Polymorpher Diskriminator: type

DynamicAgentConfig

Konfiguration für dynamische Agenten.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "dynamic" gesetzt.

DeepResearchAgentConfig

Konfiguration für den Deep Research-Agenten.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "deep-research" gesetzt.

thinking_summaries ThinkingSummaries (optional)

Gibt an, ob Zusammenfassungen der Überlegungen in die Antwort aufgenommen werden sollen.

Mögliche Werte:

auto
none

visualization enum (string) (optional)

Gibt an, ob Visualisierungen in die Antwort aufgenommen werden sollen.

Mögliche Werte:

off
auto

collaborative_planning boolean (optional)

Beispiele

Beispiel

{
  "created": "2025-12-04T15:01:45Z",
  "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg",
  "model": "gemini-3-flash-preview",
  "object": "interaction",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?"
        }
      ]
    }
  ],
  "status": "completed",
  "updated": "2025-12-04T15:01:45Z",
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 7
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 7,
    "total_output_tokens": 23,
    "total_thought_tokens": 49,
    "total_tokens": 79,
    "total_tool_use_tokens": 0
  }
}

Datenmodelle

Inhalt

Der Inhalt der Antwort.

Mögliche Typen

Polymorpher Diskriminator: type

TextContent

Ein Textinhaltsblock.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "text" gesetzt.

text string (erforderlich)

Erforderlich. Der Textinhalt.

annotations Annotation (optional)

Quellenangaben für modellgenerierte Inhalte.

Mögliche Typen

Polymorpher Diskriminator: type

UrlCitation

Eine URL-Zitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_citation" gesetzt.

url string (optional)

Die URL.

title string (optional)

Der Titel der URL.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

FileCitation

Eine Dateizitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_citation" gesetzt.

document_uri String (optional)

Der URI der Datei.

file_name String (optional)

Der Name der Datei.

source string (optional)

Die Quelle, die einem Teil des Texts zugeordnet ist.

custom_metadata object (optional)

Vom Nutzer bereitgestellte Metadaten zum abgerufenen Kontext.

page_number integer (optional)

Seitenzahl des zitierten Dokuments, falls zutreffend.

media_id string (optional)

Media-ID bei Bildquellenangaben, falls zutreffend.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

PlaceCitation

Eine Anmerkung mit einer Ortsangabe.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "place_citation" gesetzt.

place_id string (optional)

Die ID des Orts im Format „places/{place_id}“.

name string (optional)

Titel des Orts.

url string (optional)

URI-Referenz des Orts.

review_snippets ReviewSnippet (optional)

Ausschnitte aus Rezensionen, die zum Generieren von Antworten zu den Funktionen eines bestimmten Orts in Google Maps verwendet werden.

Felder

title string (optional)

Titel der Rezension.

url string (optional)

Ein Link, der der Nutzerrezension auf Google Maps entspricht.

review_id string (optional)

Die ID des Rezensions-Snippets.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

ImageContent

Ein Inhaltsblock mit einem Bild.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "image" gesetzt.

data string (optional)

Der Bildinhalt.

uri string (optional)

Der URI des Bildes.

mime_type enum (string) (optional)

Der MIME-Typ des Bildes.

Mögliche Werte:

image/png
image/jpeg
image/webp
image/heic
image/heif
image/gif
image/bmp
image/tiff

resolution MediaResolution (optional)

Die Auflösung der Media.

Mögliche Werte:

low
medium
high
ultra_high

AudioContent

Ein Audioinhaltsblock.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "audio" gesetzt.

data string (optional)

Die Audioinhalte.

uri string (optional)

Der URI des Audios.

mime_type enum (string) (optional)

Der MIME-Typ des Audios.

Mögliche Werte:

audio/wav
audio/mp3
audio/aiff
audio/aac
audio/ogg
audio/flac
audio/mpeg
audio/m4a
audio/l16
audio/opus
audio/alaw
audio/mulaw

channels integer (optional)

Die Anzahl der Audiokanäle.

sample_rate integer (optional)

Die Abtastrate des Audiosignals.

DocumentContent

Ein Inhaltsblock für Dokumente.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "document" gesetzt.

data string (optional)

Der Inhalt des Dokuments.

uri string (optional)

Der URI des Dokuments.

mime_type enum (string) (optional)

Der MIME-Typ des Dokuments.

Mögliche Werte:

application/pdf

VideoContent

Ein Videocontent-Block.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "video" gesetzt.

data string (optional)

Die Videoinhalte.

uri string (optional)

Der URI des Videos.

mime_type enum (string) (optional)

Der MIME-Typ des Videos.

Mögliche Werte:

video/mp4
video/mpeg
video/mpg
video/mov
video/avi
video/x-flv
video/webm
video/wmv
video/3gpp

resolution MediaResolution (optional)

Die Auflösung der Media.

Mögliche Werte:

low
medium
high
ultra_high

Beispiele

Text

{
  "type": "text",
  "text": "Hello, how are you?"
}

Bild

{
  "type": "image",
  "data": "BASE64_ENCODED_IMAGE",
  "mime_type": "image/png"
}

Audio

{
  "type": "audio",
  "data": "BASE64_ENCODED_AUDIO",
  "mime_type": "audio/wav"
}

Dokument

{
  "type": "document",
  "data": "BASE64_ENCODED_DOCUMENT",
  "mime_type": "application/pdf"
}

Video

{
  "type": "video",
  "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
}

Tool

Ein Tool, das vom Modell verwendet werden kann.

Mögliche Typen

Polymorpher Diskriminator: type

Funktion

Ein Tool, das vom Modell verwendet werden kann.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "function" gesetzt.

name string (optional)

Der Name der Funktion.

description string (optional)

Eine Beschreibung der Funktion.

Parameter object (optional)

Das JSON-Schema für die Parameter der Funktion.

CodeExecution

Ein Tool, das vom Modell zum Ausführen von Code verwendet werden kann.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "code_execution" gesetzt.

UrlContext

Ein Tool, mit dem das Modell URL-Kontext abrufen kann.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_context" gesetzt.

ComputerUse

Ein Tool, das vom Modell verwendet werden kann, um mit dem Computer zu interagieren.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "computer_use" gesetzt.

environment enum (string) (optional)

Die Umgebung, in der der Vorgang ausgeführt wird.

Mögliche Werte:

browser

excluded_predefined_functions array (string) (optional)

Die Liste der vordefinierten Funktionen, die vom Modellaufruf ausgeschlossen sind.

McpServer

Ein MCPServer ist ein Server, der vom Modell aufgerufen werden kann, um Aktionen auszuführen.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "mcp_server" gesetzt.

name string (optional)

Der Name des MCPServers.

url string (optional)

Die vollständige URL für den MCPServer-Endpunkt. Beispiel: „https://api.beispiel.de/mcp“

headers object (optional)

Optional: Felder für Authentifizierungsheader, Zeitüberschreitungen usw., falls erforderlich.

allowed_tools AllowedTools (optional)

Die zulässigen Tools.

Felder

mode ToolChoiceType (optional)

Der Modus der Tool-Auswahl.

Mögliche Werte:

auto
any
none
validated

tools array (string) (optional)

Die Namen der zulässigen Tools.

GoogleSearch

Ein Tool, das vom Modell verwendet werden kann, um in Google zu suchen.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_search" gesetzt.

search_types array (enum (string)) (optional)

Die Arten von Suchgrundlagen, die aktiviert werden sollen.

Mögliche Werte:

web_search
image_search
enterprise_web_search

FileSearch

Ein Tool, das vom Modell zum Suchen von Dateien verwendet werden kann.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_search" gesetzt.

file_search_store_names Array (String) (optional)

Die Namen der Dateisuchspeicher, die durchsucht werden sollen.

top_k integer (optional)

Die Anzahl der semantischen Abruf-Chunks, die abgerufen werden sollen.

metadata_filter String (optional)

Metadatenfilter, der auf die Dokumente und Chunks für den semantischen Abruf angewendet werden soll.

GoogleMaps

Ein Tool, das vom Modell verwendet werden kann, um Google Maps aufzurufen.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_maps" gesetzt.

enable_widget boolean (optional)

Gibt an, ob im Ergebnis des Toolaufrufs der Antwort ein Widget-Kontext-Token zurückgegeben werden soll.

latitude number (optional)

Der Breitengrad des Standorts des Nutzers.

longitude number (optional)

Der Längengrad des Standorts des Nutzers.

Abruf

Ein Tool, mit dem das Modell Dateien abrufen kann.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "retrieval" gesetzt.

retrieval_types array (enum (string)) (optional)

Die Arten des Dateiwiederherstellungsvorgangs, die aktiviert werden sollen.

Mögliche Werte:

vertex_ai_search

vertex_ai_search_config VertexAISearchConfig (optional)

Wird verwendet, um die Konfiguration für VertexAISearch anzugeben.

Felder

engine string (optional)

Optional. Wird verwendet, um die Vertex AI Search-Engine anzugeben.

datastores array (string) (optional)

Optional. Wird verwendet, um Vertex AI Search-Datenspeicher anzugeben.

Beispiele

Funktion

CodeExecution

UrlContext

ComputerUse

McpServer

GoogleSearch

FileSearch

GoogleMaps

Abruf

Für diesen Typ sind keine Beispiele verfügbar.

InteractionSseEvent

Mögliche Typen

Polymorpher Diskriminator: event_type

InteractionCreatedEvent

event_type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "interaction.created" gesetzt.

interaction Interaction (erforderlich)

Keine Beschreibung vorhanden.

event_id string (optional)

Das event_id-Token, das zum Fortsetzen des Interaktionsstreams ab diesem Ereignis verwendet werden soll.

InteractionCompletedEvent

event_type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "interaction.completed" gesetzt.

interaction Interaction (erforderlich)

Erforderlich. Die abgeschlossene Interaktion mit leeren Ausgaben, um die Nutzlastgröße zu reduzieren. Verwenden Sie die vorherigen ContentDelta-Ereignisse für die tatsächliche Ausgabe.

event_id string (optional)

Das event_id-Token, das zum Fortsetzen des Interaktionsstreams ab diesem Ereignis verwendet werden soll.

InteractionStatusUpdate

event_type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "interaction.status_update" gesetzt.

interaction_id string (erforderlich)

Keine Beschreibung vorhanden.

status enum (string) (erforderlich)

Keine Beschreibung vorhanden.

Mögliche Werte:

in_progress
requires_action
completed
failed
cancelled
incomplete

event_id string (optional)

Das event_id-Token, das zum Fortsetzen des Interaktionsstreams ab diesem Ereignis verwendet werden soll.

ErrorEvent

event_type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "error" gesetzt.

Fehler Fehler (optional)

Keine Beschreibung vorhanden.

Felder

code string (optional)

Ein URI, der den Fehlertyp identifiziert.

message string (optional)

Eine für Menschen lesbare Fehlermeldung.

event_id string (optional)

Das event_id-Token, das zum Fortsetzen des Interaktionsstreams ab diesem Ereignis verwendet werden soll.

StepStart

event_type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "step.start" gesetzt.

index integer (erforderlich)

Keine Beschreibung vorhanden.

step Step (erforderlich)

Keine Beschreibung vorhanden.

Mögliche Typen

Polymorpher Diskriminator: type

UserInputStep

Vom Nutzer bereitgestellte Eingaben.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "user_input" gesetzt.

content array (Content) (optional)

Keine Beschreibung vorhanden.

ModelOutputStep

Die vom Modell generierte Ausgabe.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "model_output" gesetzt.

content array (Content) (optional)

Keine Beschreibung vorhanden.

ThoughtStep

Ein Gedankenschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "thought" gesetzt.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

summary ThoughtSummaryContent (optional)

Eine Zusammenfassung des Gedankens.

Mögliche Typen

Polymorpher Diskriminator: type

TextContent

Ein Textinhaltsblock.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "text" gesetzt.

text string (erforderlich)

Erforderlich. Der Textinhalt.

annotations Annotation (optional)

Quellenangaben für modellgenerierte Inhalte.

Mögliche Typen

Polymorpher Diskriminator: type

UrlCitation

Eine URL-Zitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_citation" gesetzt.

url string (optional)

Die URL.

title string (optional)

Der Titel der URL.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

FileCitation

Eine Dateizitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_citation" gesetzt.

document_uri String (optional)

Der URI der Datei.

file_name String (optional)

Der Name der Datei.

source string (optional)

Die Quelle, die einem Teil des Texts zugeordnet ist.

custom_metadata object (optional)

Vom Nutzer bereitgestellte Metadaten zum abgerufenen Kontext.

page_number integer (optional)

Seitenzahl des zitierten Dokuments, falls zutreffend.

media_id string (optional)

Media-ID bei Bildquellenangaben, falls zutreffend.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

PlaceCitation

Eine Anmerkung mit einer Ortsangabe.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "place_citation" gesetzt.

place_id string (optional)

Die ID des Orts im Format „places/{place_id}“.

name string (optional)

Titel des Orts.

url string (optional)

URI-Referenz des Orts.

review_snippets ReviewSnippet (optional)

Ausschnitte aus Rezensionen, die zum Generieren von Antworten zu den Funktionen eines bestimmten Orts in Google Maps verwendet werden.

Felder

title string (optional)

Titel der Rezension.

url string (optional)

Ein Link, der der Nutzerrezension auf Google Maps entspricht.

review_id string (optional)

Die ID des Rezensions-Snippets.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

ImageContent

Ein Inhaltsblock mit einem Bild.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "image" gesetzt.

data string (optional)

Der Bildinhalt.

uri string (optional)

Der URI des Bildes.

mime_type enum (string) (optional)

Der MIME-Typ des Bildes.

Mögliche Werte:

image/png
image/jpeg
image/webp
image/heic
image/heif
image/gif
image/bmp
image/tiff

resolution MediaResolution (optional)

Die Auflösung der Media.

Mögliche Werte:

low
medium
high
ultra_high

FunctionCallStep

Ein Funktions-Tool-Aufrufschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "function_call" gesetzt.

name string (erforderlich)

Erforderlich. Der Name des aufzurufenden Tools.

arguments object (erforderlich)

Erforderlich. Die Argumente, die an die Funktion übergeben werden sollen.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

CodeExecutionCallStep

Aufrufschritt für die Codeausführung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "code_execution_call" gesetzt.

arguments CodeExecutionCallStepArguments (erforderlich)

Erforderlich. Die Argumente, die an die Codeausführung übergeben werden sollen.

Felder

language enum (string) (optional)

Programmiersprache des „code“.

Mögliche Werte:

python

code string (optional)

Der auszuführende Code.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

UrlContextCallStep

Schritt für den URL-Kontextaufruf.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_context_call" gesetzt.

arguments UrlContextCallStepArguments (erforderlich)

Erforderlich. Die Argumente, die an den URL-Kontext übergeben werden sollen.

Felder

urls array (string) (optional)

Die abzurufenden URLs.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

McpServerToolCallStep

MCPServer-Toolaufrufschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "mcp_server_tool_call" gesetzt.

name string (erforderlich)

Erforderlich. Der Name des aufgerufenen Tools.

server_name string (erforderlich)

Erforderlich. Der Name des verwendeten MCP-Servers.

arguments object (erforderlich)

Erforderlich. Das JSON-Objekt der Argumente für die Funktion.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

GoogleSearchCallStep

Google Suche-Anrufschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_search_call" gesetzt.

arguments GoogleSearchCallStepArguments (erforderlich)

Erforderlich. Die Argumente, die an die Google Suche übergeben werden sollen.

Felder

queries array (string) (optional)

Websuchanfragen für die anschließende Websuche.

search_type enum (string) (optional)

Der Typ der aktivierten Fundierung der Suche.

Mögliche Werte:

web_search
image_search
enterprise_web_search

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

FileSearchCallStep

Anrufschritt für die Dateisuche.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_search_call" gesetzt.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

GoogleMapsCallStep

Anrufschritt in Google Maps

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_maps_call" gesetzt.

arguments GoogleMapsCallStepArguments (optional)

Die Argumente, die an das Google Maps-Tool übergeben werden sollen.

Felder

queries array (string) (optional)

Die auszuführenden Abfragen.

id String (erforderlich)

Erforderlich. Eine eindeutige ID für diesen bestimmten Tool-Aufruf.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

FunctionResultStep

Ergebnis eines Funktions-Tool-Aufrufs.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "function_result" gesetzt.

name string (optional)

Der Name des aufgerufenen Tools.

is_error boolean (optional)

Gibt an, ob beim Toolaufruf ein Fehler aufgetreten ist.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

result array (FunctionResultSubcontent) or string (erforderlich)

Das Ergebnis des Tool-Aufrufs.

CodeExecutionResultStep

Schritt für das Ergebnis der Codeausführung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "code_execution_result" gesetzt.

result string (erforderlich)

Erforderlich. Die Ausgabe der Codeausführung.

is_error boolean (optional)

Gibt an, ob bei der Codeausführung ein Fehler aufgetreten ist.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

UrlContextResultStep

Ergebnisschritt für den URL-Kontext.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_context_result" gesetzt.

result UrlContextResultItem (erforderlich)

Erforderlich. Die Ergebnisse des URL-Kontexts.

Felder

url string (optional)

Die abgerufene URL.

status enum (string) (optional)

Der Status des URL-Abrufs.

Mögliche Werte:

success
error
paywall
unsafe

is_error boolean (optional)

Gibt an, ob der URL-Kontext zu einem Fehler geführt hat.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

GoogleSearchResultStep

Schritt für Google-Suchergebnisse.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_search_result" gesetzt.

result GoogleSearchResultItem (erforderlich)

Erforderlich. Die Ergebnisse der Google Suche.

Felder

search_suggestions String (optional)

Webinhalts-Snippet, das in eine Webseite oder eine App-Webview eingebettet werden kann.

is_error boolean (optional)

Gibt an, ob bei der Google-Suche ein Fehler aufgetreten ist.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

McpServerToolResultStep

Schritt für das Ergebnis des MCPServer-Tools.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "mcp_server_tool_result" gesetzt.

name string (optional)

Name des Tools, das für diesen bestimmten Tool-Aufruf aufgerufen wird.

server_name string (optional)

Der Name des verwendeten MCP-Servers.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

result array (FunctionResultSubcontent) or string (erforderlich)

Die Ausgabe des MCP-Serveraufrufs. Kann einfacher Text oder Rich Content sein.

FileSearchResultStep

Schritt für Dateisuchergebnis.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_search_result" gesetzt.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

GoogleMapsResultStep

Google Maps-Ergebnisschritt.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "google_maps_result" gesetzt.

result GoogleMapsResultItem (erforderlich)

Keine Beschreibung vorhanden.

Felder

places GoogleMapsResultPlaces (optional)

Keine Beschreibung vorhanden.

Felder

place_id string (optional)

Keine Beschreibung vorhanden.

name string (optional)

Keine Beschreibung vorhanden.

url string (optional)

Keine Beschreibung vorhanden.

review_snippets ReviewSnippet (optional)

Keine Beschreibung vorhanden.

Felder

title string (optional)

Titel der Rezension.

url string (optional)

Ein Link, der der Nutzerrezension auf Google Maps entspricht.

review_id string (optional)

Die ID des Rezensions-Snippets.

widget_context_token string (optional)

Keine Beschreibung vorhanden.

call_id string (erforderlich)

Erforderlich. ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.

signature string (optional)

Ein Signatur-Hash für die Backend-Validierung.

event_id string (optional)

Das event_id-Token, das zum Fortsetzen des Interaktionsstreams ab diesem Ereignis verwendet werden soll.

StepDelta

event_type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "step.delta" gesetzt.

index integer (erforderlich)

Keine Beschreibung vorhanden.

delta StepDeltaData (erforderlich)

Keine Beschreibung vorhanden.

Mögliche Typen

Polymorpher Diskriminator: type

TextDelta

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "text" gesetzt.

text string (erforderlich)

Keine Beschreibung vorhanden.

ImageDelta

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "image" gesetzt.

data string (optional)

Keine Beschreibung vorhanden.

uri string (optional)

Keine Beschreibung vorhanden.

mime_type enum (string) (optional)

Keine Beschreibung vorhanden.

Mögliche Werte:

image/png
image/jpeg
image/webp
image/heic
image/heif
image/gif
image/bmp
image/tiff

resolution MediaResolution (optional)

Die Auflösung der Media.

Mögliche Werte:

low
medium
high
ultra_high

AudioDelta

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "audio" gesetzt.

data string (optional)

Keine Beschreibung vorhanden.

uri string (optional)

Keine Beschreibung vorhanden.

mime_type enum (string) (optional)

Keine Beschreibung vorhanden.

Mögliche Werte:

audio/wav
audio/mp3
audio/aiff
audio/aac
audio/ogg
audio/flac
audio/mpeg
audio/m4a
audio/l16
audio/opus
audio/alaw
audio/mulaw

rate integer (optional)

Verworfen. Verwenden Sie stattdessen „sample_rate“. Der Wert wird ignoriert.

sample_rate integer (optional)

Die Abtastrate des Audiosignals.

channels integer (optional)

Die Anzahl der Audiokanäle.

DocumentDelta

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "document" gesetzt.

data string (optional)

Keine Beschreibung vorhanden.

uri string (optional)

Keine Beschreibung vorhanden.

mime_type enum (string) (optional)

Keine Beschreibung vorhanden.

Mögliche Werte:

application/pdf

VideoDelta

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "video" gesetzt.

data string (optional)

Keine Beschreibung vorhanden.

uri string (optional)

Keine Beschreibung vorhanden.

mime_type enum (string) (optional)

Keine Beschreibung vorhanden.

Mögliche Werte:

video/mp4
video/mpeg
video/mpg
video/mov
video/avi
video/x-flv
video/webm
video/wmv
video/3gpp

resolution MediaResolution (optional)

Die Auflösung der Media.

Mögliche Werte:

low
medium
high
ultra_high

ThoughtSummaryDelta

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "thought_summary" gesetzt.

content ThoughtSummaryContent (optional)

Ein neues Zusammenfassungselement, das dem Gedanken hinzugefügt werden soll.

Mögliche Typen

Polymorpher Diskriminator: type

TextContent

Ein Textinhaltsblock.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "text" gesetzt.

text string (erforderlich)

Erforderlich. Der Textinhalt.

annotations Annotation (optional)

Quellenangaben für modellgenerierte Inhalte.

Mögliche Typen

Polymorpher Diskriminator: type

UrlCitation

Eine URL-Zitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_citation" gesetzt.

url string (optional)

Die URL.

title string (optional)

Der Titel der URL.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

FileCitation

Eine Dateizitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_citation" gesetzt.

document_uri String (optional)

Der URI der Datei.

file_name String (optional)

Der Name der Datei.

source string (optional)

Die Quelle, die einem Teil des Texts zugeordnet ist.

custom_metadata object (optional)

Vom Nutzer bereitgestellte Metadaten zum abgerufenen Kontext.

page_number integer (optional)

Seitenzahl des zitierten Dokuments, falls zutreffend.

media_id string (optional)

Media-ID bei Bildquellenangaben, falls zutreffend.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

PlaceCitation

Eine Anmerkung mit einer Ortsangabe.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "place_citation" gesetzt.

place_id string (optional)

Die ID des Orts im Format „places/{place_id}“.

name string (optional)

Titel des Orts.

url string (optional)

URI-Referenz des Orts.

review_snippets ReviewSnippet (optional)

Ausschnitte aus Rezensionen, die zum Generieren von Antworten zu den Funktionen eines bestimmten Orts in Google Maps verwendet werden.

Felder

title string (optional)

Titel der Rezension.

url string (optional)

Ein Link, der der Nutzerrezension auf Google Maps entspricht.

review_id string (optional)

Die ID des Rezensions-Snippets.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

ImageContent

Ein Inhaltsblock mit einem Bild.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "image" gesetzt.

data string (optional)

Der Bildinhalt.

uri string (optional)

Der URI des Bildes.

mime_type enum (string) (optional)

Der MIME-Typ des Bildes.

Mögliche Werte:

image/png
image/jpeg
image/webp
image/heic
image/heif
image/gif
image/bmp
image/tiff

resolution MediaResolution (optional)

Die Auflösung der Media.

Mögliche Werte:

low
medium
high
ultra_high

ThoughtSignatureDelta

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "thought_signature" gesetzt.

signature string (optional)

Signatur, die mit der Backend-Quelle übereinstimmen muss, damit sie Teil der Generierung ist.

TextAnnotationDelta

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "text_annotation_delta" gesetzt.

annotations Annotation (optional)

Quellenangaben für modellgenerierte Inhalte.

Mögliche Typen

Polymorpher Diskriminator: type

UrlCitation

Eine URL-Zitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "url_citation" gesetzt.

url string (optional)

Die URL.

title string (optional)

Der Titel der URL.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

FileCitation

Eine Dateizitationsanmerkung.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "file_citation" gesetzt.

document_uri String (optional)

Der URI der Datei.

file_name String (optional)

Der Name der Datei.

source string (optional)

Die Quelle, die einem Teil des Texts zugeordnet ist.

custom_metadata object (optional)

Vom Nutzer bereitgestellte Metadaten zum abgerufenen Kontext.

page_number integer (optional)

Seitenzahl des zitierten Dokuments, falls zutreffend.

media_id string (optional)

Media-ID bei Bildquellenangaben, falls zutreffend.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

PlaceCitation

Eine Anmerkung mit einer Ortsangabe.

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "place_citation" gesetzt.

place_id string (optional)

Die ID des Orts im Format „places/{place_id}“.

name string (optional)

Titel des Orts.

url string (optional)

URI-Referenz des Orts.

review_snippets ReviewSnippet (optional)

Ausschnitte aus Rezensionen, die zum Generieren von Antworten zu den Funktionen eines bestimmten Orts in Google Maps verwendet werden.

Felder

title string (optional)

Titel der Rezension.

url string (optional)

Ein Link, der der Nutzerrezension auf Google Maps entspricht.

review_id string (optional)

Die ID des Rezensions-Snippets.

start_index Ganzzahl (optional)

Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.

end_index integer (optional)

Ende des zugeordneten Segments (ausschließlich).

ArgumentsDelta

type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "arguments_delta" gesetzt.

partial_arguments String (optional)

Keine Beschreibung vorhanden.

event_id string (optional)

Das event_id-Token, das zum Fortsetzen des Interaktionsstreams ab diesem Ereignis verwendet werden soll.

StepStop

event_type object (erforderlich)

Keine Beschreibung vorhanden.

Immer auf "step.stop" gesetzt.

index integer (erforderlich)

Keine Beschreibung vorhanden.

event_id string (optional)

Das event_id-Token, das zum Fortsetzen des Interaktionsstreams ab diesem Ereignis verwendet werden soll.

Beispiele

Interaktion erstellt

{
  "event_type": "interaction.created",
  "interaction": {
    "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg",
    "model": "gemini-3-flash-preview",
    "status": "in_progress",
    "created": "2025-12-04T15:01:45Z",
    "updated": "2025-12-04T15:01:45Z"
  },
  "event_id": "evt_123"
}

Interaktion abgeschlossen

{
  "event_type": "interaction.completed",
  "interaction": {
    "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg",
    "model": "gemini-3-flash-preview",
    "status": "completed",
    "created": "2025-12-04T15:01:45Z",
    "updated": "2025-12-04T15:01:45Z"
  },
  "event_id": "evt_123"
}

Aktualisierung des Interaktionsstatus

{
  "event_type": "interaction.status_update",
  "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM",
  "status": "in_progress"
}

Ereignis vom Typ „Fehler“

{
  "event_type": "error",
  "error": {
    "message": "Failed to get completed interaction: Result not found.",
    "code": "not_found"
  }
}

Schrittstart

{
  "event_type": "step.start",
  "index": 0,
  "step": {
    "type": "model_output"
  }
}

Schritt-Delta

{
  "event_type": "step.delta",
  "index": 0,
  "delta": {
    "type": "text",
    "text": "Hello"
  }
}

Schrittweise Beendigung

{
  "event_type": "step.stop",
  "index": 0
}