L'API Gemini Interactions è un'API sperimentale che consente agli sviluppatori di creare applicazioni di AI generativa utilizzando i modelli Gemini. Gemini è il nostro modello più potente, sviluppato da zero per essere multimodale. È in grado di generalizzare e di comprendere, gestire e combinare senza problemi diversi tipi di informazioni, tra cui linguaggio, immagini, audio, video e codice. Puoi utilizzare l'API Gemini per casi d'uso come il ragionamento su testo e immagini, la generazione di contenuti, gli agenti di dialogo, i sistemi di riepilogo e classificazione e altro ancora.
Creare un'interazione
Crea una nuova interazione.
Corpo della richiesta
Il corpo della richiesta contiene dati con la seguente struttura:
model ModelOption (facoltativo)
Il nome del `Model` utilizzato per generare l'interazione.
Obbligatorio se non viene fornito "agent".
Valori possibili:
-
gemini-2.5-proIl nostro modello multiuso all'avanguardia, che eccelle nella programmazione e nelle attività di ragionamento complesse.
-
gemini-2.5-flashIl nostro primo modello di ragionamento ibrido che supporta una finestra contestuale da 1 milione di token e dispone di budget di pensiero.
-
gemini-2.5-flash-preview-09-2025Il modello più recente basato sul modello 2.5 Flash. 2.5 Flash Preview è ideale per l'elaborazione su larga scala, la bassa latenza, le attività ad alto volume che richiedono ragionamento e i casi d'uso con agenti.
-
gemini-2.5-flash-liteIl nostro modello più piccolo ed economico, creato per l'utilizzo su larga scala.
-
gemini-2.5-flash-lite-preview-09-2025L'ultimo modello basato su Gemini 2.5 Flash Lite ottimizzato per costi contenuti, velocità effettiva elevata e alta qualità.
-
gemini-2.5-flash-preview-native-audio-dialogI nostri modelli audio nativi ottimizzati per output audio di qualità superiore con un ritmo, una naturalezza della voce, un livello di dettaglio e un tono migliori.
-
gemini-2.5-flash-image-previewIl nostro modello nativo di generazione di immagini, ottimizzato per velocità, flessibilità e comprensione contestuale. L'input e l'output di testo hanno lo stesso prezzo di 2.5 Flash.
-
gemini-2.5-pro-preview-ttsIl nostro modello audio Text-to-Speech 2.5 Pro ottimizzato per una generazione di voce potente e a bassa latenza per output più naturali e prompt più facili da gestire.
-
gemini-3-pro-previewIl nostro modello più intelligente, con ragionamento e comprensione multimodale all'avanguardia, nonché potenti funzionalità di codifica delle vibrazioni e agentiche.
agent AgentOption (facoltativo)
Il nome dell'agente utilizzato per generare l'interazione.
Obbligatorio se non viene fornito "model".
Valori possibili:
-
deep-research-pro-preview-12-2025Agente Deep Research di Gemini
Gli input per l'interazione (comuni sia al modello che all'agente).
Istruzione di sistema per l'interazione.
Un elenco di dichiarazioni di strumenti che il modello può chiamare durante l'interazione.
Impone che la risposta generata sia un oggetto JSON conforme allo schema JSON specificato in questo campo.
Il tipo MIME della risposta. Questo campo è obbligatorio se è impostato response_format.
Solo input. Se l'interazione verrà trasmessa in streaming.
Solo input. Se memorizzare la risposta e la richiesta per il recupero successivo.
Indica se eseguire l'interazione del modello in background.
generation_config GenerationConfig (facoltativo)
Configurazione del modello
Parametri di configurazione per l'interazione con il modello.
Alternativa a "agent_config". Applicabile solo quando è impostato "model".
Campi
Controlla la casualità dell'output.
La probabilità cumulativa massima dei token da considerare durante il campionamento.
Seed utilizzato nella decodifica per la riproducibilità.
Un elenco di sequenze di caratteri che interromperanno l'interazione con l'output.
tool_choice ToolChoice (facoltativo)
Lo strumento scelto per l'interazione.
Tipi possibili
ToolChoiceType
Questo tipo non ha campi specifici.
ToolChoiceConfig
allowed_tools AllowedTools (facoltativo)
Nessuna descrizione fornita.
Campi
mode ToolChoiceType (facoltativo)
La modalità di scelta dello strumento.
Valori possibili:
-
auto -
any -
none -
validated
I nomi degli strumenti consentiti.
thinking_level ThinkingLevel (facoltativo)
Il livello di token di pensiero che il modello deve generare.
Valori possibili:
-
low -
high
thinking_summaries ThinkingSummaries (facoltativo)
Indica se includere i riepiloghi del pensiero nella risposta.
Valori possibili:
-
auto -
none
Il numero massimo di token da includere nella risposta.
speech_config SpeechConfig (facoltativo)
Configurazione per l'interazione vocale.
Campi
La voce dell'oratore.
La lingua del discorso.
Il nome dell'oratore, che deve corrispondere a quello indicato nel prompt.
agent_config object (facoltativo)
Configurazione dell'agente
Configurazione dell'agente.
Alternativa a `generation_config`. Applicabile solo quando è impostato `agent`.
Tipi possibili
Discriminatore polimorfico: type
DynamicAgentConfig
Configurazione per gli agenti dinamici.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "dynamic".
DeepResearchAgentConfig
Configurazione dell'agente Deep Research.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "deep-research".
thinking_summaries ThinkingSummaries (facoltativo)
Indica se includere i riepiloghi del pensiero nella risposta.
Valori possibili:
-
auto -
none
L'ID dell'interazione precedente, se presente.
response_modalities ResponseModality (facoltativo)
Le modalità richieste della risposta (TEXT, IMAGE, AUDIO).
Valori possibili:
-
text -
image -
audio
Risposta
Restituisce una risorsa Interaction.
Richiesta semplice
Esempio di risposta
{ "created": "2025-11-26T12:25:15Z", "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "object": "interaction", "outputs": [ { "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-11-26T12:25:15Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 20, "total_reasoning_tokens": 22, "total_tokens": 49, "total_tool_use_tokens": 0 } }
In più passaggi
Esempio di risposta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "The capital of France is Paris." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 50 } ], "total_cached_tokens": 0, "total_input_tokens": 50, "total_output_tokens": 10, "total_reasoning_tokens": 0, "total_tokens": 60, "total_tool_use_tokens": 0 } }
Input immagine
Esempio di risposta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 10 }, { "modality": "image", "tokens": 258 } ], "total_cached_tokens": 0, "total_input_tokens": 268, "total_output_tokens": 20, "total_reasoning_tokens": 0, "total_tokens": 288, "total_tool_use_tokens": 0 } }
Chiamata di funzione
Esempio di risposta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "requires_action", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "function_call", "function_call": { "name": "get_weather", "arguments": { "location": "Boston, MA" } } } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 100 } ], "total_cached_tokens": 0, "total_input_tokens": 100, "total_output_tokens": 25, "total_reasoning_tokens": 0, "total_tokens": 125, "total_tool_use_tokens": 50 } }
Deep Research
Esempio di risposta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "Here is a comprehensive research report on the current state of cancer research..." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 20 } ], "total_cached_tokens": 0, "total_input_tokens": 20, "total_output_tokens": 1000, "total_reasoning_tokens": 500, "total_tokens": 1520, "total_tool_use_tokens": 0 } }
Recuperare un'interazione
Recupera i dettagli completi di una singola interazione in base al relativo `Interaction.id`.
Parametri percorso / query
L'identificatore univoco dell'interazione da recuperare.
Se è impostato su true, i contenuti generati verranno trasmessi in streaming in modo incrementale.
Valore predefinito: False
Facoltativo. Se impostato, riprende il flusso di interazione dal blocco successivo all'evento contrassegnato dall'ID evento. Può essere utilizzato solo se "stream" è true.
Quale versione dell'API utilizzare.
Risposta
Restituisce una risorsa Interaction.
Recupero interazione
Esempio di risposta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "completed", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "model", "outputs": [ { "type": "text", "text": "I'm doing great, thank you for asking! How can I help you today?" } ] }
Eliminazione di un'interazione
Elimina l'interazione in base all'ID.
Parametri percorso / query
L'identificatore univoco dell'interazione da eliminare.
Quale versione dell'API utilizzare.
Risposta
In caso di esito positivo, la risposta è vuota.
Elimina interazione
Annullamento di un'interazione
Annulla un'interazione in base all'ID. Questo vale solo per le interazioni in background ancora in esecuzione.
Parametri percorso / query
L'identificatore univoco dell'interazione da recuperare.
Quale versione dell'API utilizzare.
Risposta
Restituisce una risorsa Interaction.
Annulla interazione
Esempio di risposta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "cancelled", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "model" }
Risorse
Interazione
La risorsa Interaction.
Campi
model ModelOption (facoltativo)
Il nome del modello utilizzato per generare l'interazione.
Valori possibili:
-
gemini-2.5-proIl nostro modello multiuso all'avanguardia, che eccelle nella programmazione e nelle attività di ragionamento complesse.
-
gemini-2.5-flashIl nostro primo modello di ragionamento ibrido che supporta una finestra contestuale da 1 milione di token e dispone di budget di pensiero.
-
gemini-2.5-flash-preview-09-2025Il modello più recente basato sul modello 2.5 Flash. 2.5 Flash Preview è ideale per l'elaborazione su larga scala, la bassa latenza, le attività ad alto volume che richiedono ragionamento e i casi d'uso con agenti.
-
gemini-2.5-flash-liteIl nostro modello più piccolo ed economico, creato per l'utilizzo su larga scala.
-
gemini-2.5-flash-lite-preview-09-2025L'ultimo modello basato su Gemini 2.5 Flash Lite ottimizzato per costi contenuti, velocità effettiva elevata e alta qualità.
-
gemini-2.5-flash-preview-native-audio-dialogI nostri modelli audio nativi ottimizzati per output audio di qualità superiore con un ritmo, una naturalezza della voce, un livello di dettaglio e un tono migliori.
-
gemini-2.5-flash-image-previewIl nostro modello nativo di generazione di immagini, ottimizzato per velocità, flessibilità e comprensione contestuale. L'input e l'output di testo hanno lo stesso prezzo di 2.5 Flash.
-
gemini-2.5-pro-preview-ttsIl nostro modello audio Text-to-Speech 2.5 Pro ottimizzato per una generazione di voce potente e a bassa latenza per output più naturali e prompt più facili da gestire.
-
gemini-3-pro-previewIl nostro modello più intelligente, con ragionamento e comprensione multimodale all'avanguardia, nonché potenti funzionalità di codifica delle vibrazioni e agentiche.
agent AgentOption (facoltativo)
Il nome dell'agente utilizzato per generare l'interazione.
Valori possibili:
-
deep-research-pro-preview-12-2025Agente Deep Research di Gemini
Solo output. Un identificatore univoco per il completamento dell'interazione.
Solo output. Lo stato dell'interazione.
Valori possibili:
-
in_progress -
requires_action -
completed -
failed -
cancelled
Solo output. L'ora in cui è stata creata la risposta nel formato ISO 8601 (AAAA-MM-GGThh:mm:ssZ).
Solo output. L'ora in cui la risposta è stata aggiornata l'ultima volta nel formato ISO 8601 (AAAA-MM-GGThh:mm:ssZ).
Solo output. Il ruolo dell'interazione.
Solo output. Risposte del modello.
Solo output. Il tipo di oggetto dell'interazione. Impostato sempre su "interaction".
Sempre impostato su "interaction".
usage Utilizzo (facoltativo)
Solo output. Statistiche sull'utilizzo dei token della richiesta di interazione.
Campi
Numero di token nel prompt (contesto).
input_tokens_by_modality ModalityTokens (facoltativo)
Una suddivisione dell'utilizzo dei token di input per modalità.
Campi
modalità ResponseModality (facoltativo)
La modalità associata al conteggio dei token.
Valori possibili:
-
text -
image -
audio
Numero di token per la modalità.
Numero di token nella parte memorizzata nella cache del prompt (i contenuti memorizzati nella cache).
cached_tokens_by_modality ModalityTokens (facoltativo)
Una suddivisione dell'utilizzo dei token memorizzati nella cache per modalità.
Campi
modalità ResponseModality (facoltativo)
La modalità associata al conteggio dei token.
Valori possibili:
-
text -
image -
audio
Numero di token per la modalità.
Numero totale di token in tutte le risposte generate.
output_tokens_by_modality ModalityTokens (facoltativo)
Una suddivisione dell'utilizzo dei token di output per modalità.
Campi
modalità ResponseModality (facoltativo)
La modalità associata al conteggio dei token.
Valori possibili:
-
text -
image -
audio
Numero di token per la modalità.
Numero di token presenti nei prompt di utilizzo degli strumenti.
tool_use_tokens_by_modality ModalityTokens (facoltativo)
Una suddivisione dell'utilizzo dei token di utilizzo degli strumenti per modalità.
Campi
modalità ResponseModality (facoltativo)
La modalità associata al conteggio dei token.
Valori possibili:
-
text -
image -
audio
Numero di token per la modalità.
Numero di token di pensieri per i modelli di pensiero.
Conteggio totale dei token per la richiesta di interazione (prompt + risposte + altri token interni).
L'ID dell'interazione precedente, se presente.
Esempi
Esempio
{ "created": "2025-12-04T15:01:45Z", "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-2.5-flash", "object": "interaction", "outputs": [ { "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-12-04T15:01:45Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 23, "total_reasoning_tokens": 49, "total_tokens": 79, "total_tool_use_tokens": 0 } }
Modelli di dati
Contenuti
Il contenuto della risposta.
Tipi possibili
Discriminatore polimorfico: type
TextContent
Un blocco di contenuti testuali.
Il contenuto testuale.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "text".
annotazioni Annotazione (facoltativo)
Informazioni sulle citazioni per i contenuti generati dal modello.
Campi
Inizio del segmento della risposta attribuito a questa fonte. L'indice indica l'inizio del segmento, misurato in byte.
Fine del segmento attribuito, esclusa.
La fonte attribuita a una parte del testo. Può essere un URL, un titolo o un altro identificatore.
ImageContent
Un blocco di contenuti immagine.
Nessuna descrizione fornita.
Nessuna descrizione fornita.
mime_type ImageMimeTypeOption (facoltativo)
Nessuna descrizione fornita.
Valori possibili:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "image".
risoluzione MediaResolution (facoltativo)
La risoluzione dei contenuti multimediali.
Valori possibili:
-
low -
medium -
high
AudioContent
Un blocco di contenuti audio.
Nessuna descrizione fornita.
Nessuna descrizione fornita.
mime_type AudioMimeTypeOption (facoltativo)
Nessuna descrizione fornita.
Valori possibili:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "audio".
DocumentContent
Un blocco di contenuti del documento.
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "document".
VideoContent
Un blocco di contenuti video.
Nessuna descrizione fornita.
Nessuna descrizione fornita.
mime_type VideoMimeTypeOption (facoltativo)
Nessuna descrizione fornita.
Valori possibili:
-
video/mp4 -
video/mpeg -
video/mov -
video/avi -
video/x-flv -
video/mpg -
video/webm -
video/wmv -
video/3gpp
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "video".
risoluzione MediaResolution (facoltativo)
La risoluzione dei contenuti multimediali.
Valori possibili:
-
low -
medium -
high
ThoughtContent
Un blocco di contenuti di pensiero.
Firma per abbinare l'origine del backend da includere nella generazione.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "thought".
summary ThoughtSummary (facoltativo)
Un riepilogo del pensiero.
FunctionCallContent
Un blocco di contenuti di chiamata dello strumento funzione.
Il nome dello strumento da chiamare.
Gli argomenti da passare alla funzione.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "function_call".
Un ID univoco per questa chiamata specifica dello strumento.
FunctionResultContent
Un blocco di contenuti dei risultati dello strumento Funzione.
Il nome dello strumento chiamato.
Indica se la chiamata allo strumento ha generato un errore.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "function_result".
Il risultato della chiamata allo strumento.
ID che corrisponde all'ID del blocco di chiamata di funzione.
CodeExecutionCallContent
Contenuti di esecuzione del codice.
arguments CodeExecutionCallArguments (facoltativo)
Gli argomenti da passare all'esecuzione del codice.
Campi
Linguaggio di programmazione del codice.
Valori possibili:
-
python
Il codice da eseguire.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "code_execution_call".
Un ID univoco per questa chiamata specifica dello strumento.
CodeExecutionResultContent
Contenuti del risultato dell'esecuzione del codice.
L'output dell'esecuzione del codice.
Indica se l'esecuzione del codice ha generato un errore.
Un hash della firma per la convalida del backend.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "code_execution_result".
ID che corrisponde all'ID del blocco di chiamata di esecuzione del codice.
UrlContextCallContent
Contenuti del contesto dell'URL.
arguments UrlContextCallArguments (facoltativo)
Gli argomenti da passare al contesto dell'URL.
Campi
Gli URL da recuperare.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "url_context_call".
Un ID univoco per questa chiamata specifica dello strumento.
UrlContextResultContent
Contenuti dei risultati del contesto URL.
La firma del risultato del contesto dell'URL.
result UrlContextResult (facoltativo)
I risultati del contesto dell'URL.
Campi
L'URL recuperato.
Lo stato del recupero dell'URL.
Valori possibili:
-
success -
error -
paywall -
unsafe
Indica se il contesto dell'URL ha generato un errore.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "url_context_result".
ID da corrispondere all'ID del blocco di chiamata del contesto dell'URL.
GoogleSearchCallContent
Contenuti della Ricerca Google.
arguments GoogleSearchCallArguments (facoltativo)
Gli argomenti da passare alla Ricerca Google.
Campi
Query di ricerca web per la ricerca web successiva.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "google_search_call".
Un ID univoco per questa chiamata specifica dello strumento.
GoogleSearchResultContent
Contenuti dei risultati di ricerca di Google.
La firma del risultato della Ricerca Google.
result GoogleSearchResult (facoltativo)
I risultati della Ricerca Google.
Campi
Riferimento URI del risultato di ricerca.
Titolo del risultato di ricerca.
Snippet di contenuti web che può essere incorporato in una pagina web o in una webview di un'app.
Indica se la Ricerca Google ha generato un errore.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "google_search_result".
ID che corrisponde all'ID del blocco delle chiamate della Ricerca Google.
McpServerToolCallContent
Contenuti della chiamata allo strumento MCPServer.
Il nome dello strumento chiamato.
Il nome del server MCP utilizzato.
L'oggetto JSON degli argomenti della funzione.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "mcp_server_tool_call".
Un ID univoco per questa chiamata specifica dello strumento.
McpServerToolResultContent
Contenuti del risultato dello strumento MCPServer.
Nome dello strumento chiamato per questa chiamata specifica.
Il nome del server MCP utilizzato.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "mcp_server_tool_result".
Il risultato della chiamata allo strumento.
ID che corrisponde all'ID del blocco di chiamata dello strumento del server MCP.
FileSearchResultContent
Contenuti dei risultati della ricerca di file.
result FileSearchResult (facoltativo)
I risultati della ricerca di file.
Campi
Il titolo del risultato di ricerca.
Il testo del risultato di ricerca.
Il nome dello store di ricerca dei file.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "file_search_result".
Esempi
Testo
{ "type": "text", "text": "Hello, how are you?" }
Immagine
{ "type": "image", "data": "BASE64_ENCODED_IMAGE", "mime_type": "image/png" }
Audio
{ "type": "audio", "data": "BASE64_ENCODED_AUDIO", "mime_type": "audio/wav" }
Documento
{ "type": "document", "data": "BASE64_ENCODED_DOCUMENT", "mime_type": "application/pdf" }
Video
{ "type": "video", "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg" }
Pensiero
{ "type": "thought", "summary": [ { "type": "text", "text": "The user is asking about the weather. I should use the get_weather tool." } ], "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh" }
Chiamata di funzione
{ "type": "function_call", "name": "get_weather", "id": "gth23981", "arguments": { "location": "Boston, MA" } }
Risultato della funzione
{ "type": "function_result", "name": "get_weather", "call_id": "gth23981", "result": { "weather": "sunny" } }
Chiamata di esecuzione del codice
{ "type": "code_execution_call", "id": "call_123456", "arguments": { "language": "python", "code": "print('hello world')" } }
Risultato dell'esecuzione del codice
{ "type": "code_execution_result", "call_id": "call_123456", "result": "hello world\n" }
Chiamata al contesto URL
{ "type": "url_context_call", "id": "call_123456", "arguments": { "urls": [ "https://www.example.com" ] } }
Risultato del contesto URL
{ "type": "url_context_result", "call_id": "call_123456", "result": [ { "url": "https://www.example.com", "status": "SUCCESS" } ] }
Chiamata dalla Ricerca Google
{ "type": "google_search_call", "id": "call_123456", "arguments": { "queries": [ "weather in Boston" ] } }
Risultato della Ricerca Google
{ "type": "google_search_result", "call_id": "call_123456", "result": [ { "url": "https://www.google.com/search?q=weather+in+Boston", "title": "Weather in Boston" } ] }
Chiamata allo strumento del server MCP
{ "type": "mcp_server_tool_call", "id": "call_123456", "name": "get_forecast", "server_name": "weather_server", "arguments": { "city": "London" } }
Mcp Server Tool Result
{ "type": "mcp_server_tool_result", "name": "get_forecast", "server_name": "weather_server", "call_id": "call_123456", "result": "sunny" }
Risultato della ricerca di file
{ "type": "file_search_result", "result": [ { "text": "search result chunk", "file_search_store": "file_search_store" } ] }
Strumento
Tipi possibili
Discriminatore polimorfico: type
Funzione
Uno strumento che può essere utilizzato dal modello.
Il nome della funzione.
Una descrizione della funzione.
Lo schema JSON per i parametri della funzione.
Nessuna descrizione fornita.
Sempre impostato su "function".
GoogleSearch
Uno strumento che può essere utilizzato dal modello per eseguire ricerche su Google.
Nessuna descrizione fornita.
Sempre impostato su "google_search".
CodeExecution
Uno strumento che può essere utilizzato dal modello per eseguire il codice.
Nessuna descrizione fornita.
Sempre impostato su "code_execution".
UrlContext
Uno strumento che può essere utilizzato dal modello per recuperare il contesto dell'URL.
Nessuna descrizione fornita.
Sempre impostato su "url_context".
ComputerUse
Uno strumento che può essere utilizzato dal modello per interagire con il computer.
Nessuna descrizione fornita.
Sempre impostato su "computer_use".
L'ambiente in cui viene eseguita l'operazione.
Valori possibili:
-
browser
L'elenco delle funzioni predefinite escluse dalla chiamata del modello.
McpServer
Un MCPServer è un server che può essere chiamato dal modello per eseguire azioni.
Nessuna descrizione fornita.
Sempre impostato su "mcp_server".
Il nome di MCPServer.
L'URL completo dell'endpoint MCPServer. Esempio: "https://api.example.com/mcp"
(Facoltativo) Campi per intestazioni di autenticazione, timeout e così via, se necessario.
allowed_tools AllowedTools (facoltativo)
Gli strumenti consentiti.
Campi
mode ToolChoiceType (facoltativo)
La modalità di scelta dello strumento.
Valori possibili:
-
auto -
any -
none -
validated
I nomi degli strumenti consentiti.
FileSearch
Uno strumento che può essere utilizzato dal modello per cercare i file.
I nomi dei negozi in cui cercare i file.
Il numero di blocchi di recupero semantico da recuperare.
Filtro dei metadati da applicare ai documenti e ai chunk di recupero semantico.
Nessuna descrizione fornita.
Sempre impostato su "file_search".
Esempi
Funzione
GoogleSearch
CodeExecution
UrlContext
ComputerUse
McpServer
FileSearch
CANNOT TRANSLATE
Campi
L'autore di questo turno. Deve essere un utente per l'input o un modello per l'output del modello.
Il contenuto del turno.
Esempi
Turno dell'utente
{ "role": "user", "content": [ { "type": "text", "text": "user turn" } ] }
Model Turn
{ "role": "model", "content": [ { "type": "text", "text": "model turn" } ] }
InteractionSseEvent
Tipi possibili
Discriminatore polimorfico: event_type
InteractionEvent
Nessuna descrizione fornita.
Valori possibili:
-
interaction.start -
interaction.complete
Nessuna descrizione fornita.
Il token event_id da utilizzare per riprendere lo stream di interazione da questo evento.
InteractionStatusUpdate
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Valori possibili:
-
in_progress -
requires_action -
completed -
failed -
cancelled
Nessuna descrizione fornita.
Sempre impostato su "interaction.status_update".
Il token event_id da utilizzare per riprendere lo stream di interazione da questo evento.
ContentStart
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Sempre impostato su "content.start".
Il token event_id da utilizzare per riprendere lo stream di interazione da questo evento.
ContentDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Sempre impostato su "content.delta".
Il token event_id da utilizzare per riprendere lo stream di interazione da questo evento.
delta object (facoltativo)
Nessuna descrizione fornita.
Tipi possibili
Discriminatore polimorfico: type
TextDelta
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "text".
annotazioni Annotazione (facoltativo)
Informazioni sulle citazioni per i contenuti generati dal modello.
Campi
Inizio del segmento della risposta attribuito a questa fonte. L'indice indica l'inizio del segmento, misurato in byte.
Fine del segmento attribuito, esclusa.
La fonte attribuita a una parte del testo. Può essere un URL, un titolo o un altro identificatore.
ImageDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
mime_type ImageMimeTypeOption (facoltativo)
Nessuna descrizione fornita.
Valori possibili:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "image".
risoluzione MediaResolution (facoltativo)
La risoluzione dei contenuti multimediali.
Valori possibili:
-
low -
medium -
high
AudioDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
mime_type AudioMimeTypeOption (facoltativo)
Nessuna descrizione fornita.
Valori possibili:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "audio".
DocumentDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "document".
VideoDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
mime_type VideoMimeTypeOption (facoltativo)
Nessuna descrizione fornita.
Valori possibili:
-
video/mp4 -
video/mpeg -
video/mov -
video/avi -
video/x-flv -
video/mpg -
video/webm -
video/wmv -
video/3gpp
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "video".
risoluzione MediaResolution (facoltativo)
La risoluzione dei contenuti multimediali.
Valori possibili:
-
low -
medium -
high
ThoughtSummaryDelta
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "thought_summary".
Nessuna descrizione fornita.
ThoughtSignatureDelta
Firma per abbinare l'origine del backend da includere nella generazione.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "thought_signature".
FunctionCallDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "function_call".
Un ID univoco per questa chiamata specifica dello strumento.
FunctionResultDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "function_result".
Delta del risultato della chiamata allo strumento.
ID che corrisponde all'ID del blocco di chiamata di funzione.
CodeExecutionCallDelta
arguments CodeExecutionCallArguments (facoltativo)
Nessuna descrizione fornita.
Campi
Linguaggio di programmazione del codice.
Valori possibili:
-
python
Il codice da eseguire.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "code_execution_call".
Un ID univoco per questa chiamata specifica dello strumento.
CodeExecutionResultDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "code_execution_result".
ID che corrisponde all'ID del blocco di chiamata di funzione.
UrlContextCallDelta
arguments UrlContextCallArguments (facoltativo)
Nessuna descrizione fornita.
Campi
Gli URL da recuperare.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "url_context_call".
Un ID univoco per questa chiamata specifica dello strumento.
UrlContextResultDelta
Nessuna descrizione fornita.
result UrlContextResult (facoltativo)
Nessuna descrizione fornita.
Campi
L'URL recuperato.
Lo stato del recupero dell'URL.
Valori possibili:
-
success -
error -
paywall -
unsafe
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "url_context_result".
ID che corrisponde all'ID del blocco di chiamata di funzione.
GoogleSearchCallDelta
arguments GoogleSearchCallArguments (facoltativo)
Nessuna descrizione fornita.
Campi
Query di ricerca web per la ricerca web successiva.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "google_search_call".
Un ID univoco per questa chiamata specifica dello strumento.
GoogleSearchResultDelta
Nessuna descrizione fornita.
result GoogleSearchResult (facoltativo)
Nessuna descrizione fornita.
Campi
Riferimento URI del risultato di ricerca.
Titolo del risultato di ricerca.
Snippet di contenuti web che può essere incorporato in una pagina web o in una webview di un'app.
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il campo oneof dei contenuti.
Sempre impostato su "google_search_result".
ID che corrisponde all'ID del blocco di chiamata di funzione.
McpServerToolCallDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "mcp_server_tool_call".
Un ID univoco per questa chiamata specifica dello strumento.
McpServerToolResultDelta
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "mcp_server_tool_result".
Delta del risultato della chiamata allo strumento.
ID che corrisponde all'ID del blocco di chiamata di funzione.
FileSearchResultDelta
result FileSearchResult (facoltativo)
Nessuna descrizione fornita.
Campi
Il titolo del risultato di ricerca.
Il testo del risultato di ricerca.
Il nome dello store di ricerca dei file.
Utilizzato come discriminatore del tipo OpenAPI per il oneof dei contenuti.
Sempre impostato su "file_search_result".
ContentStop
Nessuna descrizione fornita.
Nessuna descrizione fornita.
Sempre impostato su "content.stop".
Il token event_id da utilizzare per riprendere lo stream di interazione da questo evento.
ErrorEvent
Nessuna descrizione fornita.
Sempre impostato su "error".
error Error (facoltativo)
Nessuna descrizione fornita.
Campi
Un URI che identifica il tipo di errore.
Un messaggio di errore leggibile.
Il token event_id da utilizzare per riprendere lo stream di interazione da questo evento.
Esempi
Inizio interazione
{ "event_type": "interaction.start", "interaction": { "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-2.5-flash", "object": "interaction", "status": "in_progress" } }
Interazione completata
{ "event_type": "interaction.complete", "interaction": { "created": "2025-12-09T18:45:40Z", "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-2.5-flash", "object": "interaction", "outputs": [ { "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh", "type": "thought" }, { "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save", "type": "text" }, { "text": " for one beloved anomaly: a chipped porcelain teacup, inherited from her grandmother, which held her morning Earl Grey.\n\nOne Tuesday, stirring her tea, Elara paused. At the bottom, nestled against the porcelain, was a star.", "type": "text" }, { "text": " Not a star-shaped tea leaf, but a miniature, perfectly formed celestial body, radiating a faint, cool luminescence. Before she could gasp, it dissolved, leaving only the amber swirl of her brew. She dismissed it as a trick of", "type": "text" }, { "text": " tired eyes.\n\nBut the next morning, a gossamer-thin feather, smaller than an eyelash and shimmering with iridescent hues, floated on the surface. It vanished the moment she tried to touch it. A week later, a single,", "type": "text" }, { "text": " impossibly delicate bloom, like spun moonbeam, unfolded in her cup before fading into nothingness.\n\nThese weren't illusions. Each day, Elara\u2019s chipped teacup offered a fleeting, exquisite secret. A tiny, perfect", "type": "text" }, { "text": " crystal, a miniature spiral nebula, a fragment of rainbow caught in liquid form. They never lingered, never accumulated, simply *were* and then *weren't*, leaving behind a residue of quiet wonder.\n\nElara never spoke", "type": "text" }, { "text": " of it. It was her private wellspring, a daily reminder that magic could exist in the smallest, most overlooked corners of the world. Her routine remained unchanged, her external life a picture of calm, but inside, a secret garden blo", "type": "text" }, { "text": "omed. Each dawn brought not just tea, but the silent promise of extraordinary beauty, waiting patiently in a chipped teacup.", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-12-09T18:45:40Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 11 } ], "total_cached_tokens": 0, "total_input_tokens": 11, "total_output_tokens": 364, "total_reasoning_tokens": 1120, "total_tokens": 1495, "total_tool_use_tokens": 0 } } }
Aggiornamento dello stato dell'interazione
{ "event_type": "interaction.status_update", "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "status": "in_progress" }
Inizio dei contenuti
{ "event_type": "content.start", "content": { "type": "text" }, "index": 1 }
Delta dei contenuti
{ "event_type": "content.delta", "delta": { "type": "text", "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save" }, "index": 1 }
Interruzione dei contenuti
{ "event_type": "content.stop", "index": 1 }
Evento di errore
{ "event_type": "error", "error": { "message": "Failed to get completed interaction: Result not found.", "code": "not_found" } }