La API de Gemini Interactions es una API experimental que permite a los desarrolladores crear aplicaciones de IA generativa con modelos de Gemini. Gemini es nuestro modelo más capaz, creado desde cero para ser multimodal. Puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, como lenguaje, imágenes, audio, video y código. Puedes usar la API de Gemini para casos de uso como el razonamiento en texto e imágenes, la generación de contenido, los agentes de diálogo, los sistemas de resumen y clasificación, y mucho más.
Cómo crear una interacción
Crea una interacción nueva.
Cuerpo de la solicitud
El cuerpo de la solicitud contiene datos con la siguiente estructura:
model ModelOption (opcional)
Es el nombre del `Modelo` que se usó para generar la interacción.
Obligatorio si no se proporciona `agent`.
Valores posibles:
-
gemini-2.5-computer-use-preview-10-2025Es un modelo de capacidad de agente diseñado para la interacción directa con la interfaz, que permite que Gemini perciba y navegue por entornos digitales.
-
gemini-2.5-flashNuestro primer modelo de razonamiento híbrido que admite una ventana de contexto de 1 millón de tokens y tiene presupuestos de pensamiento.
-
gemini-2.5-flash-imageNuestro modelo de generación de imágenes nativo, optimizado para la velocidad, la flexibilidad y la comprensión contextual. La entrada y salida de texto tienen el mismo precio que 2.5 Flash.
-
gemini-2.5-flash-liteEs nuestro modelo más pequeño y rentable, creado para el uso a gran escala.
-
gemini-2.5-flash-lite-preview-09-2025Es el modelo más reciente basado en Gemini 2.5 Flash Lite, optimizado para la rentabilidad, la alta capacidad de procesamiento y la alta calidad.
-
gemini-2.5-flash-native-audio-preview-12-2025Nuestros modelos de audio nativos están optimizados para obtener salidas de audio de mayor calidad con mejor ritmo, naturalidad de la voz, verbosidad y estado de ánimo.
-
gemini-2.5-flash-preview-09-2025Es el modelo más reciente basado en el modelo 2.5 Flash. La versión preliminar de 2.5 Flash es ideal para el procesamiento a gran escala, la baja latencia, las tareas de gran volumen que requieren pensamiento y los casos de uso de agentes.
-
gemini-2.5-flash-preview-ttsNuestro modelo de texto a voz 2.5 Flash optimizado para una generación de voz potente, controlable y de baja latencia.
-
gemini-2.5-proNuestro modelo polivalente de vanguardia, que se destaca en tareas de programación y razonamiento complejo.
-
gemini-2.5-pro-preview-ttsNuestro modelo de audio de texto a voz 2.5 Pro está optimizado para la generación de voz potente y de baja latencia, lo que permite obtener resultados más naturales y facilita la dirección de las instrucciones.
-
gemini-3-flash-previewNuestro modelo más inteligente, creado para ofrecer velocidad, que combina inteligencia de vanguardia con capacidades superiores de búsqueda y fundamentación.
-
gemini-3-pro-image-previewModelo de generación y edición de imágenes de vanguardia.
-
gemini-3-pro-previewNuestro modelo más inteligente con comprensión multimodal y razonamiento de vanguardia, y potentes capacidades de programación de agentes y vibe coding.
-
gemini-3.1-pro-previewNuestro modelo de razonamiento de vanguardia más reciente, con una profundidad y un nivel de detalle sin precedentes, y potentes capacidades de comprensión multimodal y programación.
-
gemini-3.1-flash-image-previewInteligencia visual de nivel profesional con eficiencia de velocidad Flash y capacidades de generación fundamentadas en la realidad.
-
gemini-3.1-flash-lite-previewNuestro modelo más rentable, optimizado para tareas de agentes de gran volumen, traducción y procesamiento de datos simple.
-
gemini-3.1-flash-tts-previewTTS de Gemini 3.1 Flash: Generación de voz potente y de baja latencia. Disfruta de resultados naturales, instrucciones guiadas y nuevas etiquetas de audio expresivas para un control preciso de la narración.
-
lyria-3-clip-previewNuestro modelo de generación de música de baja latencia optimizado para clips de audio de alta fidelidad y control rítmico preciso.
-
lyria-3-pro-previewNuestro modelo generativo avanzado de canciones completas con una profunda comprensión de la composición, optimizado para un control estructural preciso y transiciones complejas en diversos estilos musicales.
agent AgentOption (opcional)
Es el nombre del `Agent` que se usó para generar la interacción.
Obligatorio si no se proporciona `model`.
Valores posibles:
-
deep-research-pro-preview-12-2025Agente de Deep Research de Gemini
-
deep-research-preview-04-2026Agente de Deep Research de Gemini
-
deep-research-max-preview-04-2026Agente de Deep Research Max de Gemini
Son las entradas de la interacción (comunes tanto para el modelo como para el agente).
Instrucción del sistema para la interacción.
Es una lista de declaraciones de herramientas a las que el modelo puede llamar durante la interacción.
Aplica que la respuesta generada sea un objeto JSON que cumpla con el esquema JSON especificado en este campo.
Es el tipo de MIME de la respuesta. Este campo es obligatorio si se establece response_format.
Solo entrada. Indica si la interacción se transmitirá.
Solo entrada. Indica si se debe almacenar la respuesta y la solicitud para su recuperación posterior.
Solo entrada. Indica si se debe ejecutar la interacción del modelo en segundo plano.
generation_config GenerationConfig (opcional)
Configuración del modelo
Parámetros de configuración para la interacción del modelo.
Es una alternativa a "agent_config". Solo se aplica cuando se establece "model".
Campos
Controla la aleatoriedad del resultado.
Es la probabilidad acumulativa máxima de los tokens que se deben tener en cuenta durante el muestreo.
Es la semilla que se usa en la decodificación para la reproducibilidad.
Es una lista de secuencias de caracteres que detendrán la interacción de salida.
thinking_level ThinkingLevel (opcional)
Es el nivel de tokens de pensamiento que debe generar el modelo.
Valores posibles:
-
minimal -
low -
medium -
high
thinking_summaries ThinkingSummaries (opcional)
Indica si se deben incluir resúmenes de pensamiento en la respuesta.
Valores posibles:
-
auto -
none
Es la cantidad máxima de tokens que se incluirán en la respuesta.
speech_config SpeechConfig (opcional)
Es la configuración para la interacción por voz.
Campos
La voz del orador.
Es el idioma del discurso.
Nombre del orador, que debe coincidir con el nombre del orador que se indica en la instrucción.
image_config ImageConfig (opcional)
Es la configuración para la interacción con la imagen.
Campos
No se proporcionó la descripción.
Valores posibles:
-
1:1 -
2:3 -
3:2 -
3:4 -
4:3 -
4:5 -
5:4 -
9:16 -
16:9 -
21:9 -
1:8 -
8:1 -
1:4 -
4:1
No se proporcionó la descripción.
Valores posibles:
-
1K -
2K -
4K -
512
Es la configuración de elección de la herramienta.
agent_config object (opcional)
Agent Configuration
Es la configuración del agente.
Alternativa a "generation_config". Solo se aplica cuando se configura "agent".
Tipos posibles
Discriminador polimórfico: type
DynamicAgentConfig
Es la configuración para los agentes dinámicos.
No se proporcionó la descripción.
Siempre se establece en "dynamic".
DeepResearchAgentConfig
Es la configuración del agente de Deep Research.
No se proporcionó la descripción.
Siempre se establece en "deep-research".
thinking_summaries ThinkingSummaries (opcional)
Indica si se deben incluir resúmenes de pensamiento en la respuesta.
Valores posibles:
-
auto -
none
Indica si se deben incluir visualizaciones en la respuesta.
Valores posibles:
-
off -
auto
Habilita la planificación con interacción humana para el agente de Deep Research. Si se establece en verdadero, el agente de Deep Research proporcionará un plan de investigación en su respuesta. Luego, el agente solo continuará si el usuario confirma el plan en el siguiente turno.
ID de la interacción anterior, si corresponde.
response_modalities ResponseModality (opcional)
Son las modalidades solicitadas de la respuesta (TEXT, IMAGE, AUDIO).
Valores posibles:
-
text -
image -
audio -
video -
document
Es el nivel de servicio de la interacción.
Valores posibles:
-
flex -
standard -
priority
Respuesta
Devuelve un recurso de Interaction.
Solicitud simple
Ejemplo de respuesta
{ "created": "2025-11-26T12:25:15Z", "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "object": "interaction", "outputs": [ { "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-11-26T12:25:15Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 20, "total_thought_tokens": 22, "total_tokens": 49, "total_tool_use_tokens": 0 } }
Varios turnos
Ejemplo de respuesta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "The capital of France is Paris." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 50 } ], "total_cached_tokens": 0, "total_input_tokens": 50, "total_output_tokens": 10, "total_thought_tokens": 0, "total_tokens": 60, "total_tool_use_tokens": 0 } }
Entrada de imagen
Ejemplo de respuesta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 10 }, { "modality": "image", "tokens": 258 } ], "total_cached_tokens": 0, "total_input_tokens": 268, "total_output_tokens": 20, "total_thought_tokens": 0, "total_tokens": 288, "total_tool_use_tokens": 0 } }
Llamada a función
Ejemplo de respuesta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "requires_action", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "function_call", "id": "gth23981", "name": "get_weather", "arguments": { "location": "Boston, MA" } } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 100 } ], "total_cached_tokens": 0, "total_input_tokens": 100, "total_output_tokens": 25, "total_thought_tokens": 0, "total_tokens": 125, "total_tool_use_tokens": 50 } }
Deep Research
Ejemplo de respuesta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "agent", "outputs": [ { "type": "text", "text": "Here is a comprehensive research report on the current state of cancer research..." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 20 } ], "total_cached_tokens": 0, "total_input_tokens": 20, "total_output_tokens": 1000, "total_thought_tokens": 500, "total_tokens": 1520, "total_tool_use_tokens": 0 } }
Cómo recuperar una interacción
Recupera los detalles completos de una sola interacción según su `Interaction.id`.
Parámetros de ruta de acceso o de consulta
Es el identificador único de la interacción que se recuperará.
Si se establece como verdadero, el contenido generado se transmitirá de forma incremental.
Valor predeterminado: False
Opcional. Si se configura, reanuda el flujo de interacción desde el siguiente fragmento después del evento marcado por el ID del evento. Solo se puede usar si "stream" es verdadero.
Si se establece como verdadero, incluye la entrada en la respuesta.
Valor predeterminado: False
Indica qué versión de la API se debe usar.
Respuesta
Devuelve un recurso de Interaction.
Obtener interacción
Ejemplo de respuesta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "model", "outputs": [ { "type": "text", "text": "I'm doing great, thank you for asking! How can I help you today?" } ] }
Cómo borrar una interacción
Borra la interacción por ID.
Parámetros de ruta de acceso o de consulta
Es el identificador único de la interacción que se borrará.
Indica qué versión de la API se debe usar.
Respuesta
Si se ejecuta correctamente, la respuesta estará vacía.
Borrar interacción
Cómo cancelar una interacción
Cancela una interacción por ID. Esto solo se aplica a las interacciones en segundo plano que aún se están ejecutando.
Parámetros de ruta de acceso o de consulta
Es el identificador único de la interacción que se cancelará.
Indica qué versión de la API se debe usar.
Respuesta
Devuelve un recurso de Interaction.
Cancelar interacción
Ejemplo de respuesta
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "cancelled", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "agent" }
Recursos
Interacción
Es el recurso Interaction.
Campos
model ModelOption (opcional)
Es el nombre del `Modelo` que se usó para generar la interacción.
Valores posibles:
-
gemini-2.5-computer-use-preview-10-2025Es un modelo de capacidad de agente diseñado para la interacción directa con la interfaz, que permite que Gemini perciba y navegue por entornos digitales.
-
gemini-2.5-flashNuestro primer modelo de razonamiento híbrido que admite una ventana de contexto de 1 millón de tokens y tiene presupuestos de pensamiento.
-
gemini-2.5-flash-imageNuestro modelo de generación de imágenes nativo, optimizado para la velocidad, la flexibilidad y la comprensión contextual. La entrada y salida de texto tienen el mismo precio que 2.5 Flash.
-
gemini-2.5-flash-liteEs nuestro modelo más pequeño y rentable, creado para el uso a gran escala.
-
gemini-2.5-flash-lite-preview-09-2025Es el modelo más reciente basado en Gemini 2.5 Flash Lite, optimizado para la rentabilidad, la alta capacidad de procesamiento y la alta calidad.
-
gemini-2.5-flash-native-audio-preview-12-2025Nuestros modelos de audio nativos están optimizados para obtener salidas de audio de mayor calidad con mejor ritmo, naturalidad de la voz, verbosidad y estado de ánimo.
-
gemini-2.5-flash-preview-09-2025Es el modelo más reciente basado en el modelo 2.5 Flash. La versión preliminar de 2.5 Flash es ideal para el procesamiento a gran escala, la baja latencia, las tareas de gran volumen que requieren pensamiento y los casos de uso de agentes.
-
gemini-2.5-flash-preview-ttsNuestro modelo de texto a voz 2.5 Flash optimizado para una generación de voz potente, controlable y de baja latencia.
-
gemini-2.5-proNuestro modelo polivalente de vanguardia, que se destaca en tareas de programación y razonamiento complejo.
-
gemini-2.5-pro-preview-ttsNuestro modelo de audio de texto a voz 2.5 Pro está optimizado para la generación de voz potente y de baja latencia, lo que permite obtener resultados más naturales y facilita la dirección de las instrucciones.
-
gemini-3-flash-previewNuestro modelo más inteligente, creado para ofrecer velocidad, que combina inteligencia de vanguardia con capacidades superiores de búsqueda y fundamentación.
-
gemini-3-pro-image-previewModelo de generación y edición de imágenes de vanguardia.
-
gemini-3-pro-previewNuestro modelo más inteligente con comprensión multimodal y razonamiento de vanguardia, y potentes capacidades de programación de agentes y vibe coding.
-
gemini-3.1-pro-previewNuestro modelo de razonamiento de vanguardia más reciente, con una profundidad y un nivel de detalle sin precedentes, y potentes capacidades de comprensión multimodal y programación.
-
gemini-3.1-flash-image-previewInteligencia visual de nivel profesional con eficiencia de velocidad Flash y capacidades de generación fundamentadas en la realidad.
-
gemini-3.1-flash-lite-previewNuestro modelo más rentable, optimizado para tareas de agentes de gran volumen, traducción y procesamiento de datos simple.
-
gemini-3.1-flash-tts-previewTTS de Gemini 3.1 Flash: Generación de voz potente y de baja latencia. Disfruta de resultados naturales, instrucciones guiadas y nuevas etiquetas de audio expresivas para un control preciso de la narración.
-
lyria-3-clip-previewNuestro modelo de generación de música de baja latencia optimizado para clips de audio de alta fidelidad y control rítmico preciso.
-
lyria-3-pro-previewNuestro modelo generativo avanzado de canciones completas con una profunda comprensión de la composición, optimizado para un control estructural preciso y transiciones complejas en diversos estilos musicales.
agent AgentOption (opcional)
Es el nombre del `Agent` que se usó para generar la interacción.
Valores posibles:
-
deep-research-pro-preview-12-2025Agente de Deep Research de Gemini
-
deep-research-preview-04-2026Agente de Deep Research de Gemini
-
deep-research-max-preview-04-2026Agente de Deep Research Max de Gemini
Obligatorio. Solo salida. Es un identificador único para la finalización de la interacción.
Obligatorio. Solo salida. Es el estado de la interacción.
Valores posibles:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
Obligatorio. Solo salida. Fecha y hora en que se creó la respuesta en formato ISO 8601 (AAAA-MM-DDThh:mm:ssZ).
Obligatorio. Solo salida. Fecha y hora en que se actualizó por última vez la respuesta en formato ISO 8601 (AAAA-MM-DDThh:mm:ssZ).
Solo salida. Es el rol de la interacción.
Solo salida. Son las respuestas del modelo.
Instrucción del sistema para la interacción.
Es una lista de declaraciones de herramientas a las que el modelo puede llamar durante la interacción.
usage Usage (opcional)
Solo salida. Son las estadísticas sobre el uso de tokens de la solicitud de interacción.
Campos
Cantidad de tokens en la instrucción (contexto).
input_tokens_by_modality ModalityTokens (opcional)
Es un desglose del uso de tokens de entrada por modalidad.
Campos
modalidad ResponseModality (opcional)
Es la modalidad asociada con el recuento de tokens.
Valores posibles:
-
text -
image -
audio -
video -
document
Cantidad de tokens para la modalidad.
Cantidad de tokens en la parte almacenada en caché de la instrucción (el contenido almacenado en caché).
cached_tokens_by_modality ModalityTokens (opcional)
Es un desglose del uso de tokens almacenados en caché por modalidad.
Campos
modalidad ResponseModality (opcional)
Es la modalidad asociada con el recuento de tokens.
Valores posibles:
-
text -
image -
audio -
video -
document
Cantidad de tokens para la modalidad.
Es la cantidad total de tokens en todas las respuestas generadas.
output_tokens_by_modality ModalityTokens (opcional)
Es un desglose del uso de tokens de salida por modalidad.
Campos
modalidad ResponseModality (opcional)
Es la modalidad asociada con el recuento de tokens.
Valores posibles:
-
text -
image -
audio -
video -
document
Cantidad de tokens para la modalidad.
Cantidad de tokens presentes en las instrucciones de uso de herramientas.
tool_use_tokens_by_modality ModalityTokens (opcional)
Es un desglose del uso de tokens de uso de herramientas por modalidad.
Campos
modalidad ResponseModality (opcional)
Es la modalidad asociada con el recuento de tokens.
Valores posibles:
-
text -
image -
audio -
video -
document
Cantidad de tokens para la modalidad.
Cantidad de tokens de pensamientos para los modelos de razonamiento.
Es el recuento total de tokens para la solicitud de interacción (instrucción + respuestas + otros tokens internos).
response_modalities ResponseModality (opcional)
Son las modalidades solicitadas de la respuesta (TEXT, IMAGE, AUDIO).
Valores posibles:
-
text -
image -
audio -
video -
document
Aplica que la respuesta generada sea un objeto JSON que cumpla con el esquema JSON especificado en este campo.
Es el tipo de MIME de la respuesta. Este campo es obligatorio si se establece response_format.
ID de la interacción anterior, si corresponde.
Es el nivel de servicio de la interacción.
Valores posibles:
-
flex -
standard -
priority
Es la entrada para la interacción.
agent_config object (opcional)
Son los parámetros de configuración para la interacción del agente.
Tipos posibles
Discriminador polimórfico: type
DynamicAgentConfig
Es la configuración para los agentes dinámicos.
No se proporcionó la descripción.
Siempre se establece en "dynamic".
DeepResearchAgentConfig
Es la configuración del agente de Deep Research.
No se proporcionó la descripción.
Siempre se establece en "deep-research".
thinking_summaries ThinkingSummaries (opcional)
Indica si se deben incluir resúmenes de pensamiento en la respuesta.
Valores posibles:
-
auto -
none
Indica si se deben incluir visualizaciones en la respuesta.
Valores posibles:
-
off -
auto
Habilita la planificación con interacción humana para el agente de Deep Research. Si se configura como verdadero, el agente de Deep Research proporcionará un plan de investigación en su respuesta. Luego, el agente solo continuará si el usuario confirma el plan en el siguiente turno.
Ejemplos
Ejemplo
{ "created": "2025-12-04T15:01:45Z", "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-3-flash-preview", "object": "interaction", "outputs": [ { "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-12-04T15:01:45Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 23, "total_thought_tokens": 49, "total_tokens": 79, "total_tool_use_tokens": 0 } }
Modelos de datos
Contenido
Es el contenido de la respuesta.
Tipos posibles
Discriminador polimórfico: type
TextContent
Es un bloque de contenido de texto.
No se proporcionó la descripción.
Siempre se establece en "text".
Obligatorio. Es el contenido de texto.
anotaciones Annotation (opcional)
Es la información de citas para el contenido generado por el modelo.
Tipos posibles
Discriminador polimórfico: type
UrlCitation
Es una anotación de cita de URL.
No se proporcionó la descripción.
Siempre se establece en "url_citation".
Es la URL.
Es el título de la URL.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
FileCitation
Es una anotación de cita de archivo.
No se proporcionó la descripción.
Siempre se establece en "file_citation".
Es el URI del archivo.
Es el nombre del archivo.
Es la fuente atribuida a una parte del texto.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
PlaceCitation
Es una anotación de cita de lugar.
No se proporcionó la descripción.
Siempre se establece en "place_citation".
Es el ID del lugar, en formato `places/{place_id}`.
Título del lugar.
Es la referencia URI del lugar.
review_snippets ReviewSnippet (opcional)
Son fragmentos de opiniones que se usan para generar respuestas sobre las características de un lugar determinado en Google Maps.
Campos
Es el título de la opinión.
Es un vínculo que corresponde a la opinión del usuario en Google Maps.
Es el ID del fragmento de opinión.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
ImageContent
Es un bloque de contenido de imagen.
No se proporcionó la descripción.
Siempre se establece en "image".
Es el contenido de la imagen.
El URI de la imagen.
Es el tipo de MIME de la imagen.
Valores posibles:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcional)
Resolución del contenido multimedia.
Valores posibles:
-
low -
medium -
high -
ultra_high
AudioContent
Es un bloque de contenido de audio.
No se proporcionó la descripción.
Siempre se establece en "audio".
Es el contenido de audio.
Es el URI del audio.
Tipo MIME del audio.
Valores posibles:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
Es la frecuencia de muestreo del audio.
Es la cantidad de canales de audio.
DocumentContent
Es un bloque de contenido de un documento.
No se proporcionó la descripción.
Siempre se establece en "document".
Es el contenido del documento.
Es el URI del documento.
Es el tipo MIME del documento.
Valores posibles:
-
application/pdf
VideoContent
Es un bloque de contenido de video.
No se proporcionó la descripción.
Siempre se establece en "video".
Es el contenido del video.
Es el URI del video.
Es el tipo de MIME del video.
Valores posibles:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
resolution MediaResolution (opcional)
Resolución del contenido multimedia.
Valores posibles:
-
low -
medium -
high -
ultra_high
ThoughtContent
Es un bloque de contenido de pensamiento.
No se proporcionó la descripción.
Siempre se establece en "thought".
Firma para que coincida con la fuente del backend que formará parte de la generación.
summary ThoughtSummaryContent (opcional)
Un resumen del pensamiento
Tipos posibles
Discriminador polimórfico: type
TextContent
Es un bloque de contenido de texto.
No se proporcionó la descripción.
Siempre se establece en "text".
Obligatorio. Es el contenido de texto.
anotaciones Annotation (opcional)
Es la información de citas para el contenido generado por el modelo.
Tipos posibles
Discriminador polimórfico: type
UrlCitation
Es una anotación de cita de URL.
No se proporcionó la descripción.
Siempre se establece en "url_citation".
Es la URL.
Es el título de la URL.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
FileCitation
Es una anotación de cita de archivo.
No se proporcionó la descripción.
Siempre se establece en "file_citation".
Es el URI del archivo.
Es el nombre del archivo.
Es la fuente atribuida a una parte del texto.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
PlaceCitation
Es una anotación de cita de lugar.
No se proporcionó la descripción.
Siempre se establece en "place_citation".
Es el ID del lugar, en formato `places/{place_id}`.
Título del lugar.
Es la referencia URI del lugar.
review_snippets ReviewSnippet (opcional)
Son fragmentos de opiniones que se usan para generar respuestas sobre las características de un lugar determinado en Google Maps.
Campos
Es el título de la opinión.
Es un vínculo que corresponde a la opinión del usuario en Google Maps.
Es el ID del fragmento de opinión.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
ImageContent
Es un bloque de contenido de imagen.
No se proporcionó la descripción.
Siempre se establece en "image".
Es el contenido de la imagen.
El URI de la imagen.
Es el tipo de MIME de la imagen.
Valores posibles:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcional)
Resolución del contenido multimedia.
Valores posibles:
-
low -
medium -
high -
ultra_high
FunctionCallContent
Es un bloque de contenido de llamada a herramienta de función.
No se proporcionó la descripción.
Siempre se establece en "function_call".
Obligatorio. Es el nombre de la herramienta a la que se llamará.
Obligatorio. Son los argumentos que se pasarán a la función.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
CodeExecutionCallContent
Contenido de ejecución de código.
No se proporcionó la descripción.
Siempre se establece en "code_execution_call".
arguments CodeExecutionCallArguments (obligatorio)
Obligatorio. Son los argumentos que se pasarán a la ejecución del código.
Campos
Lenguaje de programación del `código`.
Valores posibles:
-
python
Es el código que se ejecutará.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
UrlContextCallContent
Es el contenido del contexto de la URL.
No se proporcionó la descripción.
Siempre se establece en "url_context_call".
arguments UrlContextCallArguments (obligatorio)
Obligatorio. Argumentos para pasar al contexto de la URL.
Campos
URLs que se recuperarán.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
McpServerToolCallContent
Es el contenido de la llamada a la herramienta de MCPServer.
No se proporcionó la descripción.
Siempre se establece en "mcp_server_tool_call".
Obligatorio. Es el nombre de la herramienta a la que se llamó.
Obligatorio. Es el nombre del servidor de MCP que se usó.
Obligatorio. Objeto JSON de argumentos para la función.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
GoogleSearchCallContent
Contenido de la Búsqueda de Google
No se proporcionó la descripción.
Siempre se establece en "google_search_call".
arguments GoogleSearchCallArguments (obligatorio)
Obligatorio. Son los argumentos que se pasarán a la Búsqueda de Google.
Campos
Son las búsquedas web para la búsqueda web de seguimiento.
Es el tipo de fundamentación de la búsqueda habilitada.
Valores posibles:
-
web_search -
image_search -
enterprise_web_search
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
FileSearchCallContent
Contenido de la Búsqueda de archivos
No se proporcionó la descripción.
Siempre se establece en "file_search_call".
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
GoogleMapsCallContent
Contenido de Google Maps.
No se proporcionó la descripción.
Siempre se establece en "google_maps_call".
arguments GoogleMapsCallArguments (opcional)
Son los argumentos que se pasarán a la herramienta de Google Maps.
Campos
Consultas que se ejecutarán.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
FunctionResultContent
Es un bloque de contenido del resultado de una herramienta de función.
No se proporcionó la descripción.
Siempre se establece en "function_result".
Es el nombre de la herramienta a la que se llamó.
Indica si la llamada a la herramienta generó un error.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
Es el resultado de la llamada a la herramienta.
CodeExecutionResultContent
Es el contenido del resultado de la ejecución del código.
No se proporcionó la descripción.
Siempre se establece en "code_execution_result".
Obligatorio. Es el resultado de la ejecución del código.
Indica si la ejecución del código generó un error.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
UrlContextResultContent
Es el contenido del resultado del contexto de la URL.
No se proporcionó la descripción.
Siempre se establece en "url_context_result".
result UrlContextResult (obligatorio)
Obligatorio. Son los resultados del contexto de la URL.
Campos
Es la URL que se recuperó.
Es el estado de la recuperación de la URL.
Valores posibles:
-
success -
error -
paywall -
unsafe
Indica si el contexto de la URL generó un error.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
GoogleSearchResultContent
Es el contenido del resultado de la Búsqueda de Google.
No se proporcionó la descripción.
Siempre se establece en "google_search_result".
result GoogleSearchResult (obligatorio)
Obligatorio. Son los resultados de la Búsqueda de Google.
Campos
Es un fragmento de contenido web que se puede incorporar en una página web o en un WebView de una app.
Indica si la Búsqueda de Google generó un error.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
McpServerToolResultContent
Es el contenido del resultado de la herramienta MCPServer.
No se proporcionó la descripción.
Siempre se establece en "mcp_server_tool_result".
Nombre de la herramienta que se llama para esta llamada a la herramienta específica.
Es el nombre del servidor de MCP que se usó.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
Es el resultado de la llamada al servidor de MCP. Puede ser texto simple o contenido enriquecido.
FileSearchResultContent
Es el contenido del resultado de la búsqueda de archivos.
No se proporcionó la descripción.
Siempre se establece en "file_search_result".
result FileSearchResult (obligatorio)
Obligatorio. Son los resultados de la búsqueda de archivos.
Campos
Son los metadatos proporcionados por el usuario sobre el objeto FileSearchResult.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
GoogleMapsResultContent
Es el contenido del resultado de Google Maps.
No se proporcionó la descripción.
Siempre se establece en "google_maps_result".
result GoogleMapsResult (obligatorio)
Obligatorio. Son los resultados de Google Maps.
Campos
lugares Lugares (opcional)
Son los lugares que se encontraron.
Campos
Es el ID del lugar, en formato `places/{place_id}`.
Título del lugar.
Es la referencia URI del lugar.
review_snippets ReviewSnippet (opcional)
Son fragmentos de opiniones que se usan para generar respuestas sobre las características de un lugar determinado en Google Maps.
Campos
Es el título de la opinión.
Es un vínculo que corresponde a la opinión del usuario en Google Maps.
Es el ID del fragmento de opinión.
Es el nombre del recurso del token de contexto del widget de Google Maps.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
Ejemplos
Texto
{ "type": "text", "text": "Hello, how are you?" }
Imagen
{ "type": "image", "data": "BASE64_ENCODED_IMAGE", "mime_type": "image/png" }
Audio
{ "type": "audio", "data": "BASE64_ENCODED_AUDIO", "mime_type": "audio/wav" }
Documento
{ "type": "document", "data": "BASE64_ENCODED_DOCUMENT", "mime_type": "application/pdf" }
Video
{ "type": "video", "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg" }
Pensamiento
{ "type": "thought", "summary": [ { "type": "text", "text": "The user is asking about the weather. I should use the get_weather tool." } ], "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh" }
Llamada a función
{ "type": "function_call", "name": "get_weather", "id": "gth23981", "arguments": { "location": "Boston, MA" } }
Llamada de ejecución de código
{ "type": "code_execution_call", "id": "call_123456", "arguments": { "language": "python", "code": "print('hello world')" } }
Llamada de contexto de URL
{ "type": "url_context_call", "id": "call_123456", "arguments": { "urls": [ "https://www.example.com" ] } }
Llamada a la herramienta del servidor de MCP
{ "type": "mcp_server_tool_call", "id": "call_123456", "name": "get_forecast", "server_name": "weather_server", "arguments": { "city": "London" } }
Llamada de la Búsqueda de Google
{ "type": "google_search_call", "id": "call_123456", "arguments": { "queries": [ "weather in Boston" ] } }
Llamada de búsqueda de archivos
{ "type": "file_search_call", "id": "call_123456" }
Llamada de Google Maps
{ "type": "google_maps_call", "id": "call_123456", "arguments": { "query": "best food near me" } }
Resultado de la función
{ "type": "function_result", "name": "get_weather", "call_id": "gth23981", "result": [ { "type": "text", "text": "{\"weather\":\"sunny\"}" } ] }
Resultado de la ejecución del código
{ "type": "code_execution_result", "call_id": "call_123456", "result": "hello world" }
Resultado del contexto de URL
{ "type": "url_context_result", "call_id": "call_123456", "result": [ { "url": "https://www.example.com", "status": "SUCCESS" } ] }
Resultado de la Búsqueda de Google
{ "type": "google_search_result", "call_id": "call_123456", "result": [ { "url": "https://www.google.com/search?q=weather+in+Boston", "title": "Weather in Boston" } ] }
Resultado de la herramienta del servidor de MCP
{ "type": "mcp_server_tool_result", "name": "get_forecast", "server_name": "weather_server", "call_id": "call_123456", "result": "sunny" }
Resultado de la búsqueda de archivos
{ "type": "file_search_result", "call_id": "call_123456", "result": [ { "text": "search result chunk", "file_search_store": "file_search_store" } ] }
Resultado de Google Maps
{ "type": "google_maps_result", "call_id": "call_123456", "result": [ { "places": [ { "url": "https://www.google.com/maps/search/best+food+near+me", "name": "Tasty Restaurant" } ] } ] }
Herramienta
Es una herramienta que puede usar el modelo.
Tipos posibles
Discriminador polimórfico: type
Función
Es una herramienta que puede usar el modelo.
No se proporcionó la descripción.
Siempre se establece en "function".
Es el nombre de la función.
Es una descripción de la función.
Es el esquema JSON para los parámetros de la función.
CodeExecution
Es una herramienta que el modelo puede usar para ejecutar código.
No se proporcionó la descripción.
Siempre se establece en "code_execution".
UrlContext
Es una herramienta que el modelo puede usar para recuperar el contexto de la URL.
No se proporcionó la descripción.
Siempre se establece en "url_context".
ComputerUse
Es una herramienta que el modelo puede usar para interactuar con la computadora.
No se proporcionó la descripción.
Siempre se establece en "computer_use".
Es el entorno en el que se opera.
Valores posibles:
-
browser
Es la lista de funciones predefinidas que se excluyen de la llamada al modelo.
McpServer
Un MCPServer es un servidor al que puede llamar el modelo para realizar acciones.
No se proporcionó la descripción.
Siempre se establece en "mcp_server".
Es el nombre del MCPServer.
Es la URL completa del extremo de MCPServer. Ejemplo: "https://api.example.com/mcp"
Opcional: Campos para encabezados de autenticación, tiempos de espera, etcétera, si es necesario.
allowed_tools AllowedTools (opcional)
Las herramientas permitidas.
Campos
mode ToolChoiceType (opcional)
Es el modo de la elección de la herramienta.
Valores posibles:
-
auto -
any -
none -
validated
Son los nombres de las herramientas permitidas.
GoogleSearch
Es una herramienta que el modelo puede usar para buscar en Google.
No se proporcionó la descripción.
Siempre se establece en "google_search".
Son los tipos de fundamentación de la búsqueda que se habilitarán.
Valores posibles:
-
web_search -
image_search -
enterprise_web_search
FileSearch
Es una herramienta que el modelo puede usar para buscar archivos.
No se proporcionó la descripción.
Siempre se establece en "file_search".
Nombres de los almacenes de búsqueda de archivos en los que se realizará la búsqueda.
Es la cantidad de fragmentos de recuperación semántica que se recuperarán.
Es un filtro de metadatos que se aplica a los documentos y fragmentos recuperados de forma semántica.
GoogleMaps
Es una herramienta que el modelo puede usar para llamar a Google Maps.
No se proporcionó la descripción.
Siempre se establece en "google_maps".
Indica si se debe devolver un token de contexto del widget en el resultado de la llamada a la herramienta de la respuesta.
Es la latitud de la ubicación del usuario.
Es la longitud de la ubicación del usuario.
Recuperación
Es una herramienta que el modelo puede usar para recuperar archivos.
No se proporcionó la descripción.
Siempre se establece en "retrieval".
Son los tipos de recuperación de archivos que se pueden habilitar.
Valores posibles:
-
vertex_ai_search
vertex_ai_search_config VertexAISearchConfig (opcional)
Se usa para especificar la configuración de VertexAISearch.
Campos
Opcional. Se usa para especificar el motor de búsqueda de Vertex AI Search.
Opcional. Se usa para especificar los almacenes de datos de Vertex AI Search.
Ejemplos
Función
CodeExecution
UrlContext
ComputerUse
McpServer
GoogleSearch
FileSearch
GoogleMaps
Recuperación
No hay ejemplos disponibles para este tipo.
Turn
Campos
Es el originador de este turno. Debe ser el usuario para la entrada o el modelo para el resultado del modelo.
No se proporcionó la descripción.
Ejemplos
Turno del usuario
{ "role": "user", "content": [ { "type": "text", "text": "user turn" } ] }
Turno del modelo
{ "role": "model", "content": [ { "type": "text", "text": "model turn" } ] }
InteractionSseEvent
Tipos posibles
Discriminador polimórfico: event_type
InteractionStartEvent
No se proporcionó la descripción.
Siempre se establece en "interaction.start".
No se proporcionó la descripción.
Es el token de event_id que se usará para reanudar el flujo de interacción a partir de este evento.
InteractionCompleteEvent
No se proporcionó la descripción.
Siempre se establece en "interaction.complete".
Obligatorio. Es la interacción completada con resultados vacíos para reducir el tamaño de la carga útil. Usa los eventos ContentDelta anteriores para el resultado real.
Es el token de event_id que se usará para reanudar el flujo de interacción a partir de este evento.
InteractionStatusUpdate
No se proporcionó la descripción.
Siempre se establece en "interaction.status_update".
No se proporcionó la descripción.
No se proporcionó la descripción.
Valores posibles:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
Es el token de event_id que se usará para reanudar el flujo de interacción a partir de este evento.
ContentStart
No se proporcionó la descripción.
Siempre se establece en "content.start".
No se proporcionó la descripción.
No se proporcionó la descripción.
Es el token de event_id que se usará para reanudar el flujo de interacción a partir de este evento.
ContentDelta
No se proporcionó la descripción.
Siempre se establece en "content.delta".
No se proporcionó la descripción.
delta ContentDeltaData (obligatorio)
No se proporcionó la descripción.
Tipos posibles
Discriminador polimórfico: type
TextDelta
No se proporcionó la descripción.
Siempre se establece en "text".
No se proporcionó la descripción.
ImageDelta
No se proporcionó la descripción.
Siempre se establece en "image".
No se proporcionó la descripción.
No se proporcionó la descripción.
No se proporcionó la descripción.
Valores posibles:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcional)
Resolución del contenido multimedia.
Valores posibles:
-
low -
medium -
high -
ultra_high
AudioDelta
No se proporcionó la descripción.
Siempre se establece en "audio".
No se proporcionó la descripción.
No se proporcionó la descripción.
No se proporcionó la descripción.
Valores posibles:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
Es la frecuencia de muestreo del audio.
Es la cantidad de canales de audio.
DocumentDelta
No se proporcionó la descripción.
Siempre se establece en "document".
No se proporcionó la descripción.
No se proporcionó la descripción.
No se proporcionó la descripción.
Valores posibles:
-
application/pdf
VideoDelta
No se proporcionó la descripción.
Siempre se establece en "video".
No se proporcionó la descripción.
No se proporcionó la descripción.
No se proporcionó la descripción.
Valores posibles:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
resolution MediaResolution (opcional)
Resolución del contenido multimedia.
Valores posibles:
-
low -
medium -
high -
ultra_high
ThoughtSummaryDelta
No se proporcionó la descripción.
Siempre se establece en "thought_summary".
content ThoughtSummaryContent (opcional)
Es un nuevo elemento de resumen que se agregará al pensamiento.
Tipos posibles
Discriminador polimórfico: type
TextContent
Es un bloque de contenido de texto.
No se proporcionó la descripción.
Siempre se establece en "text".
Obligatorio. Es el contenido de texto.
anotaciones Annotation (opcional)
Es la información de citas para el contenido generado por el modelo.
Tipos posibles
Discriminador polimórfico: type
UrlCitation
Es una anotación de cita de URL.
No se proporcionó la descripción.
Siempre se establece en "url_citation".
Es la URL.
Es el título de la URL.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
FileCitation
Es una anotación de cita de archivo.
No se proporcionó la descripción.
Siempre se establece en "file_citation".
Es el URI del archivo.
Es el nombre del archivo.
Es la fuente atribuida a una parte del texto.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
PlaceCitation
Es una anotación de cita de lugar.
No se proporcionó la descripción.
Siempre se establece en "place_citation".
Es el ID del lugar, en formato `places/{place_id}`.
Título del lugar.
Es la referencia URI del lugar.
review_snippets ReviewSnippet (opcional)
Son fragmentos de opiniones que se usan para generar respuestas sobre las características de un lugar determinado en Google Maps.
Campos
Es el título de la opinión.
Es un vínculo que corresponde a la opinión del usuario en Google Maps.
Es el ID del fragmento de opinión.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
ImageContent
Es un bloque de contenido de imagen.
No se proporcionó la descripción.
Siempre se establece en "image".
Es el contenido de la imagen.
El URI de la imagen.
Es el tipo de MIME de la imagen.
Valores posibles:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcional)
Resolución del contenido multimedia.
Valores posibles:
-
low -
medium -
high -
ultra_high
ThoughtSignatureDelta
No se proporcionó la descripción.
Siempre se establece en "thought_signature".
Firma para que coincida con la fuente del backend que formará parte de la generación.
FunctionCallDelta
No se proporcionó la descripción.
Siempre se establece en "function_call".
No se proporcionó la descripción.
No se proporcionó la descripción.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
CodeExecutionCallDelta
No se proporcionó la descripción.
Siempre se establece en "code_execution_call".
arguments CodeExecutionCallArguments (obligatorio)
No se proporcionó la descripción.
Campos
Lenguaje de programación del `código`.
Valores posibles:
-
python
Es el código que se ejecutará.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
UrlContextCallDelta
No se proporcionó la descripción.
Siempre se establece en "url_context_call".
arguments UrlContextCallArguments (obligatorio)
No se proporcionó la descripción.
Campos
URLs que se recuperarán.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
GoogleSearchCallDelta
No se proporcionó la descripción.
Siempre se establece en "google_search_call".
arguments GoogleSearchCallArguments (obligatorio)
No se proporcionó la descripción.
Campos
Son las búsquedas web para la búsqueda web de seguimiento.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
McpServerToolCallDelta
No se proporcionó la descripción.
Siempre se establece en "mcp_server_tool_call".
No se proporcionó la descripción.
No se proporcionó la descripción.
No se proporcionó la descripción.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
FileSearchCallDelta
No se proporcionó la descripción.
Siempre se establece en "file_search_call".
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
GoogleMapsCallDelta
No se proporcionó la descripción.
Siempre se establece en "google_maps_call".
arguments GoogleMapsCallArguments (opcional)
Son los argumentos que se pasarán a la herramienta de Google Maps.
Campos
Consultas que se ejecutarán.
Obligatorio. Es un ID único para esta llamada a herramienta específica.
Es un hash de firma para la validación de backend.
FunctionResultDelta
No se proporcionó la descripción.
Siempre se establece en "function_result".
No se proporcionó la descripción.
No se proporcionó la descripción.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
No se proporcionó la descripción.
CodeExecutionResultDelta
No se proporcionó la descripción.
Siempre se establece en "code_execution_result".
No se proporcionó la descripción.
No se proporcionó la descripción.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
UrlContextResultDelta
No se proporcionó la descripción.
Siempre se establece en "url_context_result".
result UrlContextResult (obligatorio)
No se proporcionó la descripción.
Campos
Es la URL que se recuperó.
Es el estado de la recuperación de la URL.
Valores posibles:
-
success -
error -
paywall -
unsafe
No se proporcionó la descripción.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
GoogleSearchResultDelta
No se proporcionó la descripción.
Siempre se establece en "google_search_result".
result GoogleSearchResult (obligatorio)
No se proporcionó la descripción.
Campos
Es un fragmento de contenido web que se puede incorporar en una página web o en un WebView de una app.
No se proporcionó la descripción.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
McpServerToolResultDelta
No se proporcionó la descripción.
Siempre se establece en "mcp_server_tool_result".
No se proporcionó la descripción.
No se proporcionó la descripción.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
No se proporcionó la descripción.
FileSearchResultDelta
No se proporcionó la descripción.
Siempre se establece en "file_search_result".
result FileSearchResult (obligatorio)
No se proporcionó la descripción.
Campos
Son los metadatos proporcionados por el usuario sobre el objeto FileSearchResult.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
GoogleMapsResultDelta
No se proporcionó la descripción.
Siempre se establece en "google_maps_result".
result GoogleMapsResult (opcional)
Son los resultados de Google Maps.
Campos
lugares Lugares (opcional)
Son los lugares que se encontraron.
Campos
Es el ID del lugar, en formato `places/{place_id}`.
Título del lugar.
Es la referencia URI del lugar.
review_snippets ReviewSnippet (opcional)
Son fragmentos de opiniones que se usan para generar respuestas sobre las características de un lugar determinado en Google Maps.
Campos
Es el título de la opinión.
Es un vínculo que corresponde a la opinión del usuario en Google Maps.
Es el ID del fragmento de opinión.
Es el nombre del recurso del token de contexto del widget de Google Maps.
Obligatorio. Es el ID que debe coincidir con el ID del bloque de llamada a función.
Es un hash de firma para la validación de backend.
TextAnnotationDelta
No se proporcionó la descripción.
Siempre se establece en "text_annotation".
anotaciones Annotation (opcional)
Es la información de citas para el contenido generado por el modelo.
Tipos posibles
Discriminador polimórfico: type
UrlCitation
Es una anotación de cita de URL.
No se proporcionó la descripción.
Siempre se establece en "url_citation".
Es la URL.
Es el título de la URL.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
FileCitation
Es una anotación de cita de archivo.
No se proporcionó la descripción.
Siempre se establece en "file_citation".
Es el URI del archivo.
Es el nombre del archivo.
Es la fuente atribuida a una parte del texto.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
PlaceCitation
Es una anotación de cita de lugar.
No se proporcionó la descripción.
Siempre se establece en "place_citation".
Es el ID del lugar, en formato `places/{place_id}`.
Título del lugar.
Es la referencia URI del lugar.
review_snippets ReviewSnippet (opcional)
Son fragmentos de opiniones que se usan para generar respuestas sobre las características de un lugar determinado en Google Maps.
Campos
Es el título de la opinión.
Es un vínculo que corresponde a la opinión del usuario en Google Maps.
Es el ID del fragmento de opinión.
Es el inicio del segmento de la respuesta que se atribuye a esta fuente. El índice indica el inicio del segmento, medido en bytes.
Es el final del segmento atribuido, exclusivo.
Es el token de event_id que se usará para reanudar el flujo de interacción a partir de este evento.
ContentStop
No se proporcionó la descripción.
Siempre se establece en "content.stop".
No se proporcionó la descripción.
Es el token de event_id que se usará para reanudar el flujo de interacción a partir de este evento.
ErrorEvent
No se proporcionó la descripción.
Siempre se establece en "error".
error Error (opcional)
No se proporcionó la descripción.
Campos
Es un URI que identifica el tipo de error.
Es un mensaje de error legible por humanos.
Es el token de event_id que se usará para reanudar el flujo de interacción a partir de este evento.
Ejemplos
Inicio de la interacción
{ "event_type": "interaction.start", "interaction": { "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-3-flash-preview", "object": "interaction", "status": "in_progress" } }
Interacción completa
{ "event_type": "interaction.complete", "interaction": { "created": "2025-12-09T18:45:40Z", "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-3-flash-preview", "object": "interaction", "role": "model", "status": "completed", "updated": "2025-12-09T18:45:40Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 11 } ], "total_cached_tokens": 0, "total_input_tokens": 11, "total_output_tokens": 364, "total_thought_tokens": 1120, "total_tokens": 1495, "total_tool_use_tokens": 0 } } }
Actualización del estado de la interacción
{ "event_type": "interaction.status_update", "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "status": "in_progress" }
Inicio del contenido
{ "event_type": "content.start", "content": { "type": "text" }, "index": 1 }
Delta de contenido
{ "event_type": "content.delta", "delta": { "type": "text", "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save" }, "index": 1 }
Detención del contenido
{ "event_type": "content.stop", "index": 1 }
Evento de error
{ "event_type": "error", "error": { "message": "Failed to get completed interaction: Result not found.", "code": "not_found" } }