Die Gemini Interactions API ist eine experimentelle API, mit der Entwickler generative KI-Anwendungen mit Gemini-Modellen erstellen können. Gemini ist unser leistungsstärkstes Modell, das von Grund auf multimodal konzipiert wurde. Es kann generalisieren und problemlos verschiedene Arten von Informationen wie Sprache, Bilder, Audio, Video und Code verstehen, verarbeiten und kombinieren. Sie können die Gemini API für Anwendungsfälle wie das Ableiten von Text und Bildern, die Generierung von Inhalten, Dialog-Agents, Zusammenfassungs- und Klassifizierungssysteme und vieles mehr verwenden.
Interaktion erstellen
Erstellt eine neue Interaktion.
Anfragetext
Der Anfragetext enthält Daten mit folgender Struktur:
model ModelOption (optional)
Der Name des `Model`, das zum Generieren der Interaktion verwendet wurde.
Erforderlich, wenn „agent“ nicht angegeben ist.
Mögliche Werte:
-
gemini-2.5-proUnser hochmodernes Mehrzweckmodell, das sich durch seine Fähigkeiten beim Programmieren und bei komplexen Aufgaben zum logischen Denken auszeichnet.
-
gemini-2.5-flashUnser erstes Hybrid-Reasoning-Modell, das ein Kontextfenster mit 1 Million Tokens unterstützt und über Denkbudgets verfügt.
-
gemini-2.5-flash-preview-09-2025Das neueste Modell, das auf dem Modell 2.5 Flash basiert. 2.5 Flash Preview eignet sich am besten für die Verarbeitung großer Mengen, Aufgaben mit niedriger Latenz und hohem Volumen, die Denkprozesse erfordern, sowie für Agent-Anwendungsfälle.
-
gemini-2.5-flash-liteUnser kleinstes und kostengünstigstes Modell, das für die Nutzung im großen Maßstab entwickelt wurde.
-
gemini-2.5-flash-lite-preview-09-2025Das neueste Modell basiert auf Gemini 2.5 Flash Lite und ist für Kosteneffizienz, hohen Durchsatz und hohe Qualität optimiert.
-
gemini-2.5-flash-preview-native-audio-dialogUnsere nativen Audiomodelle sind für Audioausgaben mit höherer Qualität optimiert und bieten ein besseres Tempo, natürlichere Stimmen, mehr Ausführlichkeit und eine passendere Stimmungslage.
-
gemini-2.5-flash-image-previewUnser natives Modell für die Bildgenerierung, das für Geschwindigkeit, Flexibilität und Kontextverständnis optimiert ist. Die Preise für Texteingabe und -ausgabe sind dieselben wie für 2.5 Flash.
-
gemini-2.5-pro-preview-ttsUnser 2.5 Pro-Modell für die Sprachsynthese ist für die leistungsstarke, latenzarme Sprachgenerierung optimiert und bietet natürlichere Ausgaben und einfacher zu steuernde Prompts.
-
gemini-3-pro-previewUnser bisher intelligentestes Modell mit modernsten Funktionen für logische Schlussfolgerungen und multimodales Verstehen sowie leistungsstarken Funktionen für agentisches Programmieren und Vibe Coding.
agent AgentOption (optional)
Der Name des `Agent`, der zum Generieren der Interaktion verwendet wurde.
Erforderlich, wenn „model“ nicht angegeben ist.
Mögliche Werte:
-
deep-research-pro-preview-12-2025Gemini Deep Research Agent
Die Eingaben für die Interaktion (sowohl für das Modell als auch für den Agent).
Systemanweisung für die Interaktion.
Eine Liste der Tool-Deklarationen, die das Modell während der Interaktion aufrufen kann.
Erzwingt, dass die generierte Antwort ein JSON-Objekt ist, das dem in diesem Feld angegebenen JSON-Schema entspricht.
Der MIME-Typ der Antwort. Erforderlich, wenn „response_format“ festgelegt ist.
Nur Eingabe. Ob die Interaktion gestreamt wird.
Nur Eingabe. Gibt an, ob die Antwort und die Anfrage für den späteren Abruf gespeichert werden sollen.
Gibt an, ob die Modellinteraktion im Hintergrund ausgeführt werden soll.
generation_config GenerationConfig (optional)
Modellkonfiguration
Konfigurationsparameter für die Modellinteraktion.
Alternative zu „agent_config“. Gilt nur, wenn „model“ festgelegt ist.
Felder
Steuert die Zufälligkeit der Ausgabe.
Die maximale kumulative Wahrscheinlichkeit der Tokens, die beim Sampling berücksichtigt werden sollen.
Seed, der beim Decodieren für die Reproduzierbarkeit verwendet wird.
Eine Liste von Zeichenfolgen, die die Ausgabeinteraktion beenden.
tool_choice ToolChoice (optional)
Die Tool-Auswahl für die Interaktion.
Mögliche Typen
ToolChoiceType
Dieser Typ hat keine spezifischen Felder.
ToolChoiceConfig
allowed_tools AllowedTools (optional)
Keine Beschreibung vorhanden.
Felder
mode ToolChoiceType (optional)
Der Modus der Tool-Auswahl.
Mögliche Werte:
-
auto -
any -
none -
validated
Die Namen der zulässigen Tools.
thinking_level ThinkingLevel (optional)
Die Anzahl der Denk-Tokens, die das Modell generieren soll.
Mögliche Werte:
-
low -
high
thinking_summaries ThinkingSummaries (optional)
Gibt an, ob Zusammenfassungen der Überlegungen in die Antwort aufgenommen werden sollen.
Mögliche Werte:
-
auto -
none
Die maximale Anzahl von Tokens, die in der Antwort enthalten sein sollen.
speech_config SpeechConfig (optional)
Konfiguration für die Sprachinteraktion.
Felder
Die Stimme des Sprechers.
Die Sprache der Rede.
Der Name des Sprechers muss mit dem Namen des Sprechers im Prompt übereinstimmen.
agent_config object (optional)
Agent Configuration (Agent-Konfiguration)
Konfiguration für den Agent.
Alternative zu `generation_config`. Gilt nur, wenn `agent` festgelegt ist.
Mögliche Typen
Polymorpher Diskriminator: type
DynamicAgentConfig
Konfiguration für dynamische Agenten.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "dynamic" gesetzt.
DeepResearchAgentConfig
Konfiguration für den Deep Research-Agenten.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "deep-research" gesetzt.
thinking_summaries ThinkingSummaries (optional)
Gibt an, ob Zusammenfassungen der Überlegungen in die Antwort aufgenommen werden sollen.
Mögliche Werte:
-
auto -
none
Die ID der vorherigen Interaktion, falls vorhanden.
response_modalities ResponseModality (optional)
Die angeforderten Modalitäten der Antwort (TEXT, IMAGE, AUDIO).
Mögliche Werte:
-
text -
image -
audio
Antwort
Gibt eine Interaction-Ressource zurück.
Einfache Anfrage
Beispielantwort
{ "created": "2025-11-26T12:25:15Z", "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "object": "interaction", "outputs": [ { "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-11-26T12:25:15Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 20, "total_reasoning_tokens": 22, "total_tokens": 49, "total_tool_use_tokens": 0 } }
In mehreren Schritten
Beispielantwort
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "The capital of France is Paris." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 50 } ], "total_cached_tokens": 0, "total_input_tokens": 50, "total_output_tokens": 10, "total_reasoning_tokens": 0, "total_tokens": 60, "total_tool_use_tokens": 0 } }
Bildeingabe
Beispielantwort
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 10 }, { "modality": "image", "tokens": 258 } ], "total_cached_tokens": 0, "total_input_tokens": 268, "total_output_tokens": 20, "total_reasoning_tokens": 0, "total_tokens": 288, "total_tool_use_tokens": 0 } }
Funktionsaufrufe
Beispielantwort
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "requires_action", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "function_call", "function_call": { "name": "get_weather", "arguments": { "location": "Boston, MA" } } } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 100 } ], "total_cached_tokens": 0, "total_input_tokens": 100, "total_output_tokens": 25, "total_reasoning_tokens": 0, "total_tokens": 125, "total_tool_use_tokens": 50 } }
Deep Research
Beispielantwort
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "Here is a comprehensive research report on the current state of cancer research..." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 20 } ], "total_cached_tokens": 0, "total_input_tokens": 20, "total_output_tokens": 1000, "total_reasoning_tokens": 500, "total_tokens": 1520, "total_tool_use_tokens": 0 } }
Interaktion abrufen
Ruft die vollständigen Details einer einzelnen Interaktion anhand ihrer `Interaction.id` ab.
Pfad-/Suchparameter
Die eindeutige ID der abzurufenden Interaktion.
Bei „true“ werden die generierten Inhalte inkrementell gestreamt.
Standardeinstellung: False
Optional. Wenn festgelegt, wird der Interaktionsstream ab dem nächsten Chunk nach dem Ereignis fortgesetzt, das durch die Ereignis-ID markiert ist. Kann nur verwendet werden, wenn „stream“ auf „true“ gesetzt ist.
Zu verwendende API-Version.
Antwort
Gibt eine Interaction-Ressource zurück.
Interaktion abrufen
Beispielantwort
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "completed", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "model", "outputs": [ { "type": "text", "text": "I'm doing great, thank you for asking! How can I help you today?" } ] }
Interaktion löschen
Löscht die Interaktion anhand der ID.
Pfad-/Suchparameter
Die eindeutige Kennung der zu löschenden Interaktion.
Zu verwendende API-Version.
Antwort
Bei Erfolg ist die Antwort leer.
Interaktion löschen
Interaktion abbrechen
Bricht eine Interaktion anhand der ID ab. Dies gilt nur für Hintergrundinteraktionen, die noch laufen.
Pfad-/Suchparameter
Die eindeutige ID der abzurufenden Interaktion.
Zu verwendende API-Version.
Antwort
Gibt eine Interaction-Ressource zurück.
Interaktion abbrechen
Beispielantwort
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "cancelled", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "model" }
Ressourcen
Interaktion
Die Interaction-Ressource.
Felder
model ModelOption (optional)
Der Name des `Model`, das zum Generieren der Interaktion verwendet wurde.
Mögliche Werte:
-
gemini-2.5-proUnser hochmodernes Mehrzweckmodell, das sich durch seine Fähigkeiten beim Programmieren und bei komplexen Aufgaben zum logischen Denken auszeichnet.
-
gemini-2.5-flashUnser erstes Hybrid-Reasoning-Modell, das ein Kontextfenster mit 1 Million Tokens unterstützt und über Denkbudgets verfügt.
-
gemini-2.5-flash-preview-09-2025Das neueste Modell, das auf dem Modell 2.5 Flash basiert. 2.5 Flash Preview eignet sich am besten für die Verarbeitung großer Mengen, Aufgaben mit niedriger Latenz und hohem Volumen, die Denkprozesse erfordern, sowie für Agent-Anwendungsfälle.
-
gemini-2.5-flash-liteUnser kleinstes und kostengünstigstes Modell, das für die Nutzung im großen Maßstab entwickelt wurde.
-
gemini-2.5-flash-lite-preview-09-2025Das neueste Modell basiert auf Gemini 2.5 Flash Lite und ist für Kosteneffizienz, hohen Durchsatz und hohe Qualität optimiert.
-
gemini-2.5-flash-preview-native-audio-dialogUnsere nativen Audiomodelle sind für Audioausgaben mit höherer Qualität optimiert und bieten ein besseres Tempo, natürlichere Stimmen, mehr Ausführlichkeit und eine passendere Stimmungslage.
-
gemini-2.5-flash-image-previewUnser natives Modell für die Bildgenerierung, das für Geschwindigkeit, Flexibilität und Kontextverständnis optimiert ist. Die Preise für Texteingabe und -ausgabe sind dieselben wie für 2.5 Flash.
-
gemini-2.5-pro-preview-ttsUnser 2.5 Pro-Modell für die Sprachsynthese ist für die leistungsstarke, latenzarme Sprachgenerierung optimiert und bietet natürlichere Ausgaben und einfacher zu steuernde Prompts.
-
gemini-3-pro-previewUnser bisher intelligentestes Modell mit modernsten Funktionen für logische Schlussfolgerungen und multimodales Verstehen sowie leistungsstarken Funktionen für agentisches Programmieren und Vibe Coding.
agent AgentOption (optional)
Der Name des `Agent`, der zum Generieren der Interaktion verwendet wurde.
Mögliche Werte:
-
deep-research-pro-preview-12-2025Gemini Deep Research Agent
Nur Ausgabe. Eine eindeutige Kennung für den Abschluss der Interaktion.
Nur Ausgabe. Der Status der Interaktion.
Mögliche Werte:
-
in_progress -
requires_action -
completed -
failed -
cancelled
Nur Ausgabe. Die Uhrzeit, zu der die Antwort erstellt wurde, im ISO 8601-Format (JJJJ-MM-TTThh:mm:ssZ).
Nur Ausgabe. Die Uhrzeit, zu der die Antwort zuletzt aktualisiert wurde, im ISO 8601-Format (JJJJ-MM-TTThh:mm:ssZ).
Nur Ausgabe. Die Rolle der Interaktion.
Nur Ausgabe. Antworten des Modells.
Nur Ausgabe. Der Objekttyp der Interaktion. Immer auf „interaction“ festgelegt.
Immer auf "interaction" gesetzt.
usage Usage (optional)
Nur Ausgabe. Statistiken zur Tokennutzung der Interaktionsanfrage.
Felder
Anzahl der Tokens im Prompt (Kontext).
input_tokens_by_modality ModalityTokens (optional)
Eine Aufschlüsselung der Nutzung von Eingabetokens nach Modalität.
Felder
modality ResponseModality (optional)
Die Modalität, die der Anzahl der Tokens zugeordnet ist.
Mögliche Werte:
-
text -
image -
audio
Anzahl der Tokens für die Modalität.
Anzahl der Tokens im im Cache gespeicherten Teil des Prompts (im Cache gespeicherter Inhalt).
cached_tokens_by_modality ModalityTokens (optional)
Eine Aufschlüsselung der Nutzung von zwischengespeicherten Tokens nach Modalität.
Felder
modality ResponseModality (optional)
Die Modalität, die der Anzahl der Tokens zugeordnet ist.
Mögliche Werte:
-
text -
image -
audio
Anzahl der Tokens für die Modalität.
Die Gesamtzahl der Tokens in allen generierten Antworten.
output_tokens_by_modality ModalityTokens (optional)
Eine Aufschlüsselung der Nutzung von Ausgabetokens nach Modalität.
Felder
modality ResponseModality (optional)
Die Modalität, die der Anzahl der Tokens zugeordnet ist.
Mögliche Werte:
-
text -
image -
audio
Anzahl der Tokens für die Modalität.
Anzahl der Tokens in den Tool-Nutzungs-Prompts.
tool_use_tokens_by_modality ModalityTokens (optional)
Eine Aufschlüsselung der Tokennutzung für die Tool-Verwendung nach Modalität.
Felder
modality ResponseModality (optional)
Die Modalität, die der Anzahl der Tokens zugeordnet ist.
Mögliche Werte:
-
text -
image -
audio
Anzahl der Tokens für die Modalität.
Anzahl der Tokens für Überlegungen für Denkmodelle.
Gesamtzahl der Tokens für die Interaktionsanfrage (Prompt + Antworten + andere interne Tokens).
Die ID der vorherigen Interaktion, falls vorhanden.
Beispiele
Beispiel
{ "created": "2025-12-04T15:01:45Z", "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-2.5-flash", "object": "interaction", "outputs": [ { "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-12-04T15:01:45Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 23, "total_reasoning_tokens": 49, "total_tokens": 79, "total_tool_use_tokens": 0 } }
Datenmodelle
Inhalt
Der Inhalt der Antwort.
Mögliche Typen
Polymorpher Diskriminator: type
TextContent
Ein Textinhaltsblock.
Der Textinhalt.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "text" gesetzt.
annotations Annotation (optional)
Quellenangaben für von Modellen generierte Inhalte.
Felder
Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.
Ende des zugeordneten Segments (ausschließlich).
Die Quelle, die einem Teil des Texts zugeordnet ist. Das kann eine URL, ein Titel oder eine andere Kennung sein.
ImageContent
Ein Inhaltsblock mit einem Bild.
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
mime_type ImageMimeTypeOption (optional)
Keine Beschreibung vorhanden.
Mögliche Werte:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "image" gesetzt.
resolution MediaResolution (optional)
Die Auflösung der Media.
Mögliche Werte:
-
low -
medium -
high
AudioContent
Ein Audioinhaltsblock.
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
mime_type AudioMimeTypeOption (optional)
Keine Beschreibung vorhanden.
Mögliche Werte:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "audio" gesetzt.
DocumentContent
Ein Inhaltsblock für Dokumente.
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "document" gesetzt.
VideoContent
Ein Videocontent-Block.
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
mime_type VideoMimeTypeOption (optional)
Keine Beschreibung vorhanden.
Mögliche Werte:
-
video/mp4 -
video/mpeg -
video/mov -
video/avi -
video/x-flv -
video/mpg -
video/webm -
video/wmv -
video/3gpp
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "video" gesetzt.
resolution MediaResolution (optional)
Die Auflösung der Media.
Mögliche Werte:
-
low -
medium -
high
ThoughtContent
Ein Inhaltsblock mit Gedanken.
Signatur, die mit der Backend-Quelle übereinstimmen muss, damit sie Teil der Generierung ist.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "thought" gesetzt.
Zusammenfassung ThoughtSummary (optional)
Eine Zusammenfassung des Gedankens.
FunctionCallContent
Ein Inhaltsblock für einen Funktionsaufruf.
Der Name des aufzurufenden Tools.
Die Argumente, die an die Funktion übergeben werden sollen.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "function_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
FunctionResultContent
Ein Inhaltsblock mit dem Ergebnis eines Funktionstools.
Der Name des aufgerufenen Tools.
Gibt an, ob beim Toolaufruf ein Fehler aufgetreten ist.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "function_result" gesetzt.
Das Ergebnis des Tool-Aufrufs.
ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.
CodeExecutionCallContent
Inhalte zur Codeausführung.
arguments CodeExecutionCallArguments (optional)
Die Argumente, die an die Codeausführung übergeben werden sollen.
Felder
Programmiersprache des „code“.
Mögliche Werte:
-
python
Der auszuführende Code.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "code_execution_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
CodeExecutionResultContent
Inhalte des Ergebnisses der Codeausführung.
Die Ausgabe der Codeausführung.
Gibt an, ob bei der Codeausführung ein Fehler aufgetreten ist.
Ein Signatur-Hash für die Backend-Validierung.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "code_execution_result" gesetzt.
ID, die der ID aus dem Block für den Aufruf der Codeausführung entspricht.
UrlContextCallContent
Inhalte des URL-Kontexts.
arguments UrlContextCallArguments (optional)
Die Argumente, die an den URL-Kontext übergeben werden sollen.
Felder
Die abzurufenden URLs.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "url_context_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
UrlContextResultContent
Inhalte des URL-Kontext-Ergebnisses.
Die Signatur des URL-Kontextergebnisses.
result UrlContextResult (optional)
Die Ergebnisse des URL-Kontexts.
Felder
Die abgerufene URL.
Der Status des URL-Abrufs.
Mögliche Werte:
-
success -
error -
paywall -
unsafe
Gibt an, ob beim URL-Kontext ein Fehler aufgetreten ist.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "url_context_result" gesetzt.
ID, die mit der ID aus dem URL-Kontextaufrufblock übereinstimmen muss.
GoogleSearchCallContent
Inhalte der Google Suche.
arguments GoogleSearchCallArguments (optional)
Die Argumente, die an die Google Suche übergeben werden sollen.
Felder
Websuchanfragen für die anschließende Websuche.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "google_search_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
GoogleSearchResultContent
Inhalte von Google-Suchergebnissen.
Die Signatur des Google-Suchergebnisses.
result GoogleSearchResult (optional)
Die Ergebnisse der Google Suche.
Felder
URI-Referenz des Suchergebnisses.
Titel des Suchergebnisses.
Webinhalts-Snippet, das in eine Webseite oder eine App-Webview eingebettet werden kann.
Gibt an, ob bei der Google-Suche ein Fehler aufgetreten ist.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "google_search_result" gesetzt.
ID, die mit der ID aus dem Google Search-Aufrufblock übereinstimmen muss.
McpServerToolCallContent
Inhalt des MCPServer-Toolaufrufs.
Der Name des aufgerufenen Tools.
Der Name des verwendeten MCP-Servers.
Das JSON-Objekt der Argumente für die Funktion.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "mcp_server_tool_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
McpServerToolResultContent
Inhalte der MCPServer-Tool-Ergebnisse.
Name des Tools, das für diesen bestimmten Tool-Aufruf aufgerufen wird.
Der Name des verwendeten MCP-Servers.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "mcp_server_tool_result" gesetzt.
Das Ergebnis des Tool-Aufrufs.
ID, die der ID aus dem MCP-Server-Toolaufrufblock entspricht.
FileSearchResultContent
Inhalt des Suchergebnisses für die Dateisuche.
result FileSearchResult (optional)
Die Ergebnisse der Dateisuche.
Felder
Der Titel des Suchergebnisses.
Der Text des Suchergebnisses.
Der Name des Dateisuchspeichers.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "file_search_result" gesetzt.
Beispiele
Text
{ "type": "text", "text": "Hello, how are you?" }
Bild
{ "type": "image", "data": "BASE64_ENCODED_IMAGE", "mime_type": "image/png" }
Audio
{ "type": "audio", "data": "BASE64_ENCODED_AUDIO", "mime_type": "audio/wav" }
Dokument
{ "type": "document", "data": "BASE64_ENCODED_DOCUMENT", "mime_type": "application/pdf" }
Video
{ "type": "video", "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg" }
Gedanke
{ "type": "thought", "summary": [ { "type": "text", "text": "The user is asking about the weather. I should use the get_weather tool." } ], "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh" }
Funktionsaufruf
{ "type": "function_call", "name": "get_weather", "id": "gth23981", "arguments": { "location": "Boston, MA" } }
Funktionsergebnis
{ "type": "function_result", "name": "get_weather", "call_id": "gth23981", "result": { "weather": "sunny" } }
Codeausführungsaufruf
{ "type": "code_execution_call", "id": "call_123456", "arguments": { "language": "python", "code": "print('hello world')" } }
Ergebnis der Codeausführung
{ "type": "code_execution_result", "call_id": "call_123456", "result": "hello world\n" }
UrlContext-Aufruf
{ "type": "url_context_call", "id": "call_123456", "arguments": { "urls": [ "https://www.example.com" ] } }
Ergebnis des URL-Kontexts
{ "type": "url_context_result", "call_id": "call_123456", "result": [ { "url": "https://www.example.com", "status": "SUCCESS" } ] }
Google Search Call
{ "type": "google_search_call", "id": "call_123456", "arguments": { "queries": [ "weather in Boston" ] } }
Google-Suchergebnis
{ "type": "google_search_result", "call_id": "call_123456", "result": [ { "url": "https://www.google.com/search?q=weather+in+Boston", "title": "Weather in Boston" } ] }
McpServer-Toolaufruf
{ "type": "mcp_server_tool_call", "id": "call_123456", "name": "get_forecast", "server_name": "weather_server", "arguments": { "city": "London" } }
Ergebnis des MCP-Servertools
{ "type": "mcp_server_tool_result", "name": "get_forecast", "server_name": "weather_server", "call_id": "call_123456", "result": "sunny" }
Dateisuchergebnis
{ "type": "file_search_result", "result": [ { "text": "search result chunk", "file_search_store": "file_search_store" } ] }
Tool
Mögliche Typen
Polymorpher Diskriminator: type
Funktion
Ein Tool, das vom Modell verwendet werden kann.
Der Name der Funktion.
Eine Beschreibung der Funktion.
Das JSON-Schema für die Parameter der Funktion.
Keine Beschreibung vorhanden.
Immer auf "function" gesetzt.
GoogleSearch
Ein Tool, das vom Modell verwendet werden kann, um in Google zu suchen.
Keine Beschreibung vorhanden.
Immer auf "google_search" gesetzt.
CodeExecution
Ein Tool, das vom Modell zum Ausführen von Code verwendet werden kann.
Keine Beschreibung vorhanden.
Immer auf "code_execution" gesetzt.
UrlContext
Ein Tool, mit dem das Modell URL-Kontext abrufen kann.
Keine Beschreibung vorhanden.
Immer auf "url_context" gesetzt.
ComputerUse
Ein Tool, das vom Modell verwendet werden kann, um mit dem Computer zu interagieren.
Keine Beschreibung vorhanden.
Immer auf "computer_use" gesetzt.
Die Umgebung, in der der Vorgang ausgeführt wird.
Mögliche Werte:
-
browser
Die Liste der vordefinierten Funktionen, die vom Modellaufruf ausgeschlossen sind.
McpServer
Ein MCPServer ist ein Server, der vom Modell aufgerufen werden kann, um Aktionen auszuführen.
Keine Beschreibung vorhanden.
Immer auf "mcp_server" gesetzt.
Der Name des MCPServers.
Die vollständige URL für den MCPServer-Endpunkt. Beispiel: „https://api.beispiel.de/mcp“
Optional: Felder für Authentifizierungsheader, Zeitüberschreitungen usw., falls erforderlich.
allowed_tools AllowedTools (optional)
Die zulässigen Tools.
Felder
mode ToolChoiceType (optional)
Der Modus der Tool-Auswahl.
Mögliche Werte:
-
auto -
any -
none -
validated
Die Namen der zulässigen Tools.
FileSearch
Ein Tool, das vom Modell zum Suchen von Dateien verwendet werden kann.
Die Namen der Dateisuchspeicher, die durchsucht werden sollen.
Die Anzahl der semantischen Abruf-Chunks, die abgerufen werden sollen.
Metadatenfilter, der auf die semantischen Abrufdokumente und ‑chunks angewendet werden soll.
Keine Beschreibung vorhanden.
Immer auf "file_search" gesetzt.
Beispiele
Funktion
GoogleSearch
CodeExecution
UrlContext
ComputerUse
McpServer
FileSearch
Turn
Felder
Der Initiator dieses Zuges. Muss „user“ für die Eingabe oder „model“ für die Modellausgabe sein.
Der Inhalt des Turns.
Beispiele
Nutzerzugriff
{ "role": "user", "content": [ { "type": "text", "text": "user turn" } ] }
Modell drehen
{ "role": "model", "content": [ { "type": "text", "text": "model turn" } ] }
InteractionSseEvent
Mögliche Typen
Polymorpher Diskriminator: event_type
InteractionEvent
Keine Beschreibung vorhanden.
Mögliche Werte:
-
interaction.start -
interaction.complete
Keine Beschreibung vorhanden.
Das event_id-Token, das verwendet werden soll, um den Interaktionsstream ab diesem Ereignis fortzusetzen.
InteractionStatusUpdate
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Mögliche Werte:
-
in_progress -
requires_action -
completed -
failed -
cancelled
Keine Beschreibung vorhanden.
Immer auf "interaction.status_update" gesetzt.
Das event_id-Token, das verwendet werden soll, um den Interaktionsstream ab diesem Ereignis fortzusetzen.
ContentStart
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Immer auf "content.start" gesetzt.
Das event_id-Token, das verwendet werden soll, um den Interaktionsstream ab diesem Ereignis fortzusetzen.
ContentDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Immer auf "content.delta" gesetzt.
Das event_id-Token, das verwendet werden soll, um den Interaktionsstream ab diesem Ereignis fortzusetzen.
delta object (optional)
Keine Beschreibung vorhanden.
Mögliche Typen
Polymorpher Diskriminator: type
TextDelta
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "text" gesetzt.
annotations Annotation (optional)
Quellenangaben für von Modellen generierte Inhalte.
Felder
Beginn des Antwortsegments, das dieser Quelle zugeordnet wird. Der Index gibt den Beginn des Segments an, gemessen in Byte.
Ende des zugeordneten Segments (ausschließlich).
Die Quelle, die einem Teil des Texts zugeordnet ist. Das kann eine URL, ein Titel oder eine andere Kennung sein.
ImageDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
mime_type ImageMimeTypeOption (optional)
Keine Beschreibung vorhanden.
Mögliche Werte:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "image" gesetzt.
resolution MediaResolution (optional)
Die Auflösung der Media.
Mögliche Werte:
-
low -
medium -
high
AudioDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
mime_type AudioMimeTypeOption (optional)
Keine Beschreibung vorhanden.
Mögliche Werte:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "audio" gesetzt.
DocumentDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "document" gesetzt.
VideoDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
mime_type VideoMimeTypeOption (optional)
Keine Beschreibung vorhanden.
Mögliche Werte:
-
video/mp4 -
video/mpeg -
video/mov -
video/avi -
video/x-flv -
video/mpg -
video/webm -
video/wmv -
video/3gpp
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "video" gesetzt.
resolution MediaResolution (optional)
Die Auflösung der Media.
Mögliche Werte:
-
low -
medium -
high
ThoughtSummaryDelta
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "thought_summary" gesetzt.
Keine Beschreibung vorhanden.
ThoughtSignatureDelta
Signatur, die mit der Backend-Quelle übereinstimmen muss, damit sie Teil der Generierung ist.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "thought_signature" gesetzt.
FunctionCallDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "function_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
FunctionResultDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "function_result" gesetzt.
Delta des Tool-Aufrufergebnisses.
ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.
CodeExecutionCallDelta
arguments CodeExecutionCallArguments (optional)
Keine Beschreibung vorhanden.
Felder
Programmiersprache des „code“.
Mögliche Werte:
-
python
Der auszuführende Code.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "code_execution_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
CodeExecutionResultDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "code_execution_result" gesetzt.
ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.
UrlContextCallDelta
arguments UrlContextCallArguments (optional)
Keine Beschreibung vorhanden.
Felder
Die abzurufenden URLs.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "url_context_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
UrlContextResultDelta
Keine Beschreibung vorhanden.
result UrlContextResult (optional)
Keine Beschreibung vorhanden.
Felder
Die abgerufene URL.
Der Status des URL-Abrufs.
Mögliche Werte:
-
success -
error -
paywall -
unsafe
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "url_context_result" gesetzt.
ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.
GoogleSearchCallDelta
arguments GoogleSearchCallArguments (optional)
Keine Beschreibung vorhanden.
Felder
Websuchanfragen für die anschließende Websuche.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "google_search_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
GoogleSearchResultDelta
Keine Beschreibung vorhanden.
result GoogleSearchResult (optional)
Keine Beschreibung vorhanden.
Felder
URI-Referenz des Suchergebnisses.
Titel des Suchergebnisses.
Webinhalts-Snippet, das in eine Webseite oder eine App-Webview eingebettet werden kann.
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "google_search_result" gesetzt.
ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.
McpServerToolCallDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "mcp_server_tool_call" gesetzt.
Eine eindeutige ID für diesen bestimmten Tool-Aufruf.
McpServerToolResultDelta
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "mcp_server_tool_result" gesetzt.
Delta des Tool-Aufrufergebnisses.
ID, die mit der ID aus dem Funktionsaufrufblock übereinstimmen muss.
FileSearchResultDelta
result FileSearchResult (optional)
Keine Beschreibung vorhanden.
Felder
Der Titel des Suchergebnisses.
Der Text des Suchergebnisses.
Der Name des Dateisuchspeichers.
Wird als OpenAPI-Typ-Diskriminator für die „content“-OneOf-Option verwendet.
Immer auf "file_search_result" gesetzt.
ContentStop
Keine Beschreibung vorhanden.
Keine Beschreibung vorhanden.
Immer auf "content.stop" gesetzt.
Das event_id-Token, das verwendet werden soll, um den Interaktionsstream ab diesem Ereignis fortzusetzen.
ErrorEvent
Keine Beschreibung vorhanden.
Immer auf "error" gesetzt.
Fehler Fehler (optional)
Keine Beschreibung vorhanden.
Felder
Ein URI, der den Fehlertyp identifiziert.
Eine für Menschen lesbare Fehlermeldung.
Das event_id-Token, das verwendet werden soll, um den Interaktionsstream ab diesem Ereignis fortzusetzen.
Beispiele
Interaktionsbeginn
{ "event_type": "interaction.start", "interaction": { "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-2.5-flash", "object": "interaction", "status": "in_progress" } }
Interaktion abgeschlossen
{ "event_type": "interaction.complete", "interaction": { "created": "2025-12-09T18:45:40Z", "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-2.5-flash", "object": "interaction", "outputs": [ { "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh", "type": "thought" }, { "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save", "type": "text" }, { "text": " for one beloved anomaly: a chipped porcelain teacup, inherited from her grandmother, which held her morning Earl Grey.\n\nOne Tuesday, stirring her tea, Elara paused. At the bottom, nestled against the porcelain, was a star.", "type": "text" }, { "text": " Not a star-shaped tea leaf, but a miniature, perfectly formed celestial body, radiating a faint, cool luminescence. Before she could gasp, it dissolved, leaving only the amber swirl of her brew. She dismissed it as a trick of", "type": "text" }, { "text": " tired eyes.\n\nBut the next morning, a gossamer-thin feather, smaller than an eyelash and shimmering with iridescent hues, floated on the surface. It vanished the moment she tried to touch it. A week later, a single,", "type": "text" }, { "text": " impossibly delicate bloom, like spun moonbeam, unfolded in her cup before fading into nothingness.\n\nThese weren't illusions. Each day, Elara\u2019s chipped teacup offered a fleeting, exquisite secret. A tiny, perfect", "type": "text" }, { "text": " crystal, a miniature spiral nebula, a fragment of rainbow caught in liquid form. They never lingered, never accumulated, simply *were* and then *weren't*, leaving behind a residue of quiet wonder.\n\nElara never spoke", "type": "text" }, { "text": " of it. It was her private wellspring, a daily reminder that magic could exist in the smallest, most overlooked corners of the world. Her routine remained unchanged, her external life a picture of calm, but inside, a secret garden blo", "type": "text" }, { "text": "omed. Each dawn brought not just tea, but the silent promise of extraordinary beauty, waiting patiently in a chipped teacup.", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-12-09T18:45:40Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 11 } ], "total_cached_tokens": 0, "total_input_tokens": 11, "total_output_tokens": 364, "total_reasoning_tokens": 1120, "total_tokens": 1495, "total_tool_use_tokens": 0 } } }
Aktualisierung des Interaktionsstatus
{ "event_type": "interaction.status_update", "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "status": "in_progress" }
Inhaltsbeginn
{ "event_type": "content.start", "content": { "type": "text" }, "index": 1 }
Content-Delta
{ "event_type": "content.delta", "delta": { "type": "text", "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save" }, "index": 1 }
Content-Stopp
{ "event_type": "content.stop", "index": 1 }
Ereignis vom Typ „Fehler“
{ "event_type": "error", "error": { "message": "Failed to get completed interaction: Result not found.", "code": "not_found" } }