Versión preliminar de Gemini 3.1 Flash Live

Gemini 3.1 Flash Live Preview es nuestro modelo de audio a audio con baja latencia optimizado para el diálogo en tiempo real y las aplicaciones de IA que privilegian la voz con detección de matices acústicos, precisión numérica y conciencia multimodal.

Documentación

Visita la guía de la API en vivo para obtener una cobertura completa de las funciones y capacidades.

gemini-3.1-flash-live-preview

Propiedad Descripción
Código del modelo gemini-3.1-flash-live-preview
Tipos de datos admitidos

Entradas

Texto, imágenes, audio y video

Resultado

Texto y audio

Límites de tokens[*]

Límite de tokens de entrada

131,072

Límite de tokens de salida

65,536

Funciones

Generación de audio

Admitido

API de Batch

No compatible

Almacenamiento en caché

No compatible

Ejecución de código

No compatible

Búsqueda de archivos

No compatible

Llamada a función

Admitido

Fundamentación con Google Maps

No compatible

Generación de imágenes

No compatible

API de Live

Admitido

Fundamentación de la búsqueda

Admitido

Resultados estructurados

No compatible

Pensamiento

Admitido

Contexto de la URL

No compatible

Versiones
Lee los patrones de versiones de modelos para obtener más detalles.
  • Vista previa: gemini-3.1-flash-live-preview
Última actualización Marzo de 2026
Fecha límite de conocimiento Enero de 2025

Migración desde Gemini 2.5 Flash Live

La versión preliminar de Gemini 3.1 Flash Live está optimizada para el diálogo en tiempo real y de baja latencia. Cuando migres desde gemini-2.5-flash-native-audio-preview-12-2025, ten en cuenta lo siguiente:

  • Cadena del modelo: Actualiza la cadena del modelo de gemini-2.5-flash-native-audio-preview-12-2025 a gemini-3.1-flash-live-preview.
  • Configuración de pensamiento: Gemini 3.1 usa thinkingLevel (con parámetros de configuración como minimal, low, medium y high) en lugar de thinkingBudget. El valor predeterminado es minimal para optimizar la latencia más baja. Consulta Niveles y presupuestos de pensamiento.
  • Eventos del servidor: Un solo evento BidiGenerateContentServerContent ahora puede contener varias partes de contenido de forma simultánea (por ejemplo, fragmentos de audio y transcripción). Actualiza tu código para procesar todas las partes de cada evento y evitar perder contenido.
  • Contenido del cliente: send_client_content solo se admite para inicializar el historial de contexto inicial (requiere configurar initial_history_in_client_content en history_config). Usa send_realtime_input para enviar actualizaciones de texto durante la conversación. Consulta Actualizaciones incrementales de contenido.
  • Cobertura de giros: Se establece de forma predeterminada en TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO en lugar de TURN_INCLUDES_ONLY_ACTIVITY. El turno del modelo ahora incluye la actividad de audio detectada y todos los fotogramas de video. Si tu aplicación actualmente envía un flujo constante de fotogramas de video, es posible que desees actualizarla para que solo envíe fotogramas de video cuando haya actividad de audio y, así, evitar incurrir en costos adicionales.
  • Llamada a función asíncrona: Aún no se admite. La llamada a función solo es síncrona. El modelo no comenzará a responder hasta que envíes la respuesta de la herramienta. Consulta Llamadas a funciones asíncronas.
  • Audio proactivo y diálogo afectivo: Estas funciones aún no son compatibles con Gemini 3.1 Flash Live. Quita de tu código cualquier configuración de estas funciones. Consulta Audio proactivo y Diálogo afectivo.

Para obtener una comparación detallada de las funciones, consulta la tabla Comparación de modelos en la guía de capacidades.