La versión preliminar de Gemini 3.1 Flash Live es nuestro modelo de audio a audio de baja latencia optimizado para el diálogo en tiempo real y las aplicaciones de IA con prioridad de voz con detección de matices acústicos, precisión numérica y reconocimiento multimodal.
Documentación
Visita la guía de la API de Live para obtener una cobertura completa de las funciones y capacidades.
gemini-3.1-flash-live-preview
| Propiedad | Descripción |
|---|---|
| Código del modelo |
gemini-3.1-flash-live-preview
|
| Tipos de datos admitidos |
Entradas Texto, imágenes, audio y video Resultado Texto y audio |
| Límites de tokens[*] |
Límite de tokens de entrada 131,072 Límite de tokens de salida 65,536 |
| Funciones |
Generación de audio Admitido API de lote No admitido Almacenamiento en caché No admitido Ejecución de código No admitido Búsqueda de archivos No compatible Llamada a función Admitido Fundamentación con Google Maps No admitido Generación de imágenes No admitido API de Live Admitido Fundamentación con la Búsqueda Admitido Salidas estructuradas No admitido Razonamiento Admitido Contexto de URL No admitido |
| Versiones |
|
| Última actualización | Marzo de 2026 |
| Fecha límite de conocimiento | Enero de 2025 |
Migración desde Gemini 2.5 Flash Live
La versión preliminar de Gemini 3.1 Flash Live está optimizada para el diálogo en tiempo real y de baja latencia.
Cuando migres desde gemini-2.5-flash-native-audio-preview-12-2025, ten en cuenta lo siguiente:
- Cadena de modelo: Actualiza la cadena de modelo de
gemini-2.5-flash-native-audio-preview-12-2025agemini-3.1-flash-live-preview. - Configuración de razonamiento: Gemini 3.1 usa
thinkingLevel(con parámetros de configuración comominimal,low,medium, yhigh) en lugar dethinkingBudget. El valor predeterminado esminimalpara optimizar la latencia más baja. Consulta Niveles y presupuestos de razonamiento. - Eventos del servidor: Un solo
BidiGenerateContentServerContentevento ahora puede contener varias partes de contenido simultáneamente (por ejemplo, fragmentos de audio y transcripción). Actualiza tu código para procesar todas las partes de cada evento y evitar perder contenido. - Contenido del cliente:
send_client_contentsolo se admite para propagar el historial de contexto inicial (requiere configurarinitial_history_in_client_contentenhistory_config). Usasend_realtime_inputpara enviar actualizaciones de texto durante la conversación. Consulta Actualizaciones de contenido incrementales. - Cobertura de turnos: El valor predeterminado es
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEOen lugar deTURN_INCLUDES_ONLY_ACTIVITY. El turno del modelo ahora incluye la actividad de audio detectada y todos los fotogramas de video. Si tu aplicación envía actualmente una transmisión constante de fotogramas de video, es posible que desees actualizarla para que solo envíe fotogramas de video cuando haya actividad de audio para evitar incurrir en costos adicionales. - Llamada a función asíncrona: Aún no se admite. La llamada a función solo es síncrona. El modelo no comenzará a responder hasta que envíes la respuesta de la herramienta. Consulta Llamada a función asíncrona.
- Audio proactivo y diálogo afectivo: Estas funciones aún no se admiten en Gemini 3.1 Flash Live. Quita cualquier configuración de estas funciones de tu código. Consulta Audio proactivo y Diálogo afectivo.
Para obtener una comparación detallada de las funciones, consulta la tabla de comparación de modelos en la guía de capacidades.