La API de Interactions ya está disponible de forma general. Te recomendamos que uses esta API para acceder a todos los modelos y funciones más recientes.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Versión preliminar de Gemini 3.1 Flash Live

La versión preliminar de Gemini 3.1 Flash Live es nuestro modelo de audio a audio de baja latencia optimizado para el diálogo en tiempo real y las aplicaciones de IA que priorizan la voz con detección de matices acústicos, precisión numérica y conciencia multimodal.

Probar en Google AI Studio

Documentación

Visita la guía de la API de Live para obtener una cobertura completa de las funciones y capacidades.

gemini-3.1-flash-live-preview

Propiedad	Descripción
Código del modelo	`gemini-3.1-flash-live-preview`
Tipos de datos admitidos	Entradas Texto, imágenes, audio y video Resultado Texto y audio
Límites de tokens^[*]	Límite de tokens de entrada 131,072 Límite de tokens de salida 65,536
Capacidades	Generación de audio Admitido Almacenamiento en caché No admitido Ejecución de código No admitido Búsqueda de archivos No compatible Llamada a función Admitido Fundamentación con Google Maps No admitido Generación de imágenes No admitido API de Live Admitido Fundamentación con la Búsqueda Admitido Salidas estructuradas No admitido Razonamiento Admitido Contexto de URL No admitido
Opciones de consumo	API de lote No admitido
Versiones	Lee los patrones de versiones de modelos para obtener más detalles. Vista previa: `gemini-3.1-flash-live-preview`
Última actualización	Marzo de 2026
Fecha límite de conocimiento	Enero de 2025

Migración desde Gemini 2.5 Flash Live

La versión preliminar de Gemini 3.1 Flash Live está optimizada para el diálogo en tiempo real de baja latencia. Cuando migres desde gemini-2.5-flash-native-audio-preview-12-2025, ten en cuenta lo siguiente:

Cadena de modelo: Actualiza la cadena de modelo de gemini-2.5-flash-native-audio-preview-12-2025 a gemini-3.1-flash-live-preview.
Configuración de razonamiento: Gemini 3.1 usa thinkingLevel (con parámetros como minimal, low, medium, y high) en lugar de thinkingBudget. El valor predeterminado es minimal para optimizar la latencia más baja. Consulta Niveles y presupuestos de razonamiento.
Eventos del servidor: Un solo BidiGenerateContentServerContent evento ahora puede contener varias partes de contenido simultáneamente (por ejemplo, fragmentos de audio y transcripción). Actualiza tu código para procesar todas las partes de cada evento y evitar perder contenido.
Contenido del cliente: send_client_content solo se admite para propagar el historial de contexto inicial (requiere configurar initial_history_in_client_content en history_config). Usa send_realtime_input para enviar actualizaciones de texto durante la conversación. Consulta Actualizaciones de contenido incrementales.
Cobertura de turnos: El valor predeterminado es TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO en lugar de TURN_INCLUDES_ONLY_ACTIVITY. El turno del modelo ahora incluye la actividad de audio detectada y todos los fotogramas de video. Si tu aplicación envía actualmente una transmisión constante de fotogramas de video, es posible que desees actualizarla para que solo envíe fotogramas de video cuando haya actividad de audio para evitar incurrir en costos adicionales.
Llamada a función asíncrona: Aún no se admite. La llamada a función solo es síncrona. El modelo no comenzará a responder hasta que envíes la respuesta de la herramienta. Consulta Llamada a función asíncrona.
Audio proactivo y diálogo afectivo: Estas funciones aún no se admiten en Gemini 3.1 Flash Live. Quita cualquier configuración de estas funciones de tu código. Consulta Audio proactivo y Diálogo afectivo.

Para obtener una comparación detallada de las funciones, consulta la tabla de comparación de modelos en la guía de capacidades.