Versión preliminar de Gemini 3.1 Flash Live

La versión preliminar de Gemini 3.1 Flash Live es nuestro modelo de audio a audio de baja latencia optimizado para el diálogo en tiempo real y las aplicaciones de IA con prioridad de voz con detección de matices acústicos, precisión numérica y reconocimiento multimodal.

Documentación

Visita la guía de la API de Live para obtener una cobertura completa de las funciones y capacidades.

gemini-3.1-flash-live-preview

Propiedad Descripción
Código del modelo gemini-3.1-flash-live-preview
Tipos de datos admitidos

Entradas

Texto, imágenes, audio y video

Resultado

Texto y audio

Límites de tokens[*]

Límite de tokens de entrada

131,072

Límite de tokens de salida

65,536

Funciones

Generación de audio

Admitido

API de lote

No admitido

Almacenamiento en caché

No admitido

Ejecución de código

No admitido

Búsqueda de archivos

No compatible

Llamada a función

Admitido

Fundamentación con Google Maps

No admitido

Generación de imágenes

No admitido

API de Live

Admitido

Fundamentación con la Búsqueda

Admitido

Salidas estructuradas

No admitido

Razonamiento

Admitido

Contexto de URL

No admitido

Versiones
Lee los patrones de versiones de modelos para obtener más detalles.
  • Vista previa: gemini-3.1-flash-live-preview
Última actualización Marzo de 2026
Fecha límite de conocimiento Enero de 2025

Migración desde Gemini 2.5 Flash Live

La versión preliminar de Gemini 3.1 Flash Live está optimizada para el diálogo en tiempo real y de baja latencia. Cuando migres desde gemini-2.5-flash-native-audio-preview-12-2025, ten en cuenta lo siguiente:

  • Cadena de modelo: Actualiza la cadena de modelo de gemini-2.5-flash-native-audio-preview-12-2025 a gemini-3.1-flash-live-preview.
  • Configuración de razonamiento: Gemini 3.1 usa thinkingLevel (con parámetros de configuración como minimal, low, medium, y high) en lugar de thinkingBudget. El valor predeterminado es minimal para optimizar la latencia más baja. Consulta Niveles y presupuestos de razonamiento.
  • Eventos del servidor: Un solo BidiGenerateContentServerContent evento ahora puede contener varias partes de contenido simultáneamente (por ejemplo, fragmentos de audio y transcripción). Actualiza tu código para procesar todas las partes de cada evento y evitar perder contenido.
  • Contenido del cliente: send_client_content solo se admite para propagar el historial de contexto inicial (requiere configurar initial_history_in_client_content en history_config). Usa send_realtime_input para enviar actualizaciones de texto durante la conversación. Consulta Actualizaciones de contenido incrementales.
  • Cobertura de turnos: El valor predeterminado es TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO en lugar de TURN_INCLUDES_ONLY_ACTIVITY. El turno del modelo ahora incluye la actividad de audio detectada y todos los fotogramas de video. Si tu aplicación envía actualmente una transmisión constante de fotogramas de video, es posible que desees actualizarla para que solo envíe fotogramas de video cuando haya actividad de audio para evitar incurrir en costos adicionales.
  • Llamada a función asíncrona: Aún no se admite. La llamada a función solo es síncrona. El modelo no comenzará a responder hasta que envíes la respuesta de la herramienta. Consulta Llamada a función asíncrona.
  • Audio proactivo y diálogo afectivo: Estas funciones aún no se admiten en Gemini 3.1 Flash Live. Quita cualquier configuración de estas funciones de tu código. Consulta Audio proactivo y Diálogo afectivo.

Para obtener una comparación detallada de las funciones, consulta la tabla de comparación de modelos en la guía de capacidades.