Gemini 3.1 Flash Live Preview es nuestro modelo de audio a audio con baja latencia optimizado para el diálogo en tiempo real y las aplicaciones de IA que privilegian la voz con detección de matices acústicos, precisión numérica y conciencia multimodal.
Documentación
Visita la guía de la API en vivo para obtener una cobertura completa de las funciones y capacidades.
gemini-3.1-flash-live-preview
| Propiedad | Descripción |
|---|---|
| Código del modelo |
gemini-3.1-flash-live-preview
|
| Tipos de datos admitidos |
Entradas Texto, imágenes, audio y video Resultado Texto y audio |
| Límites de tokens[*] |
Límite de tokens de entrada 131,072 Límite de tokens de salida 65,536 |
| Funciones |
Generación de audio Admitido API de Batch No compatible Almacenamiento en caché No compatible Ejecución de código No compatible Búsqueda de archivos No compatible Llamada a función Admitido Fundamentación con Google Maps No compatible Generación de imágenes No compatible API de Live Admitido Fundamentación de la búsqueda Admitido Resultados estructurados No compatible Pensamiento Admitido Contexto de la URL No compatible |
| Versiones |
|
| Última actualización | Marzo de 2026 |
| Fecha límite de conocimiento | Enero de 2025 |
Migración desde Gemini 2.5 Flash Live
La versión preliminar de Gemini 3.1 Flash Live está optimizada para el diálogo en tiempo real y de baja latencia.
Cuando migres desde gemini-2.5-flash-native-audio-preview-12-2025, ten en cuenta lo siguiente:
- Cadena del modelo: Actualiza la cadena del modelo de
gemini-2.5-flash-native-audio-preview-12-2025agemini-3.1-flash-live-preview. - Configuración de pensamiento: Gemini 3.1 usa
thinkingLevel(con parámetros de configuración comominimal,low,mediumyhigh) en lugar dethinkingBudget. El valor predeterminado esminimalpara optimizar la latencia más baja. Consulta Niveles y presupuestos de pensamiento. - Eventos del servidor: Un solo evento
BidiGenerateContentServerContentahora puede contener varias partes de contenido de forma simultánea (por ejemplo, fragmentos de audio y transcripción). Actualiza tu código para procesar todas las partes de cada evento y evitar perder contenido. - Contenido del cliente:
send_client_contentsolo se admite para inicializar el historial de contexto inicial (requiere configurarinitial_history_in_client_contentenhistory_config). Usasend_realtime_inputpara enviar actualizaciones de texto durante la conversación. Consulta Actualizaciones incrementales de contenido. - Cobertura de giros: Se establece de forma predeterminada en
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEOen lugar deTURN_INCLUDES_ONLY_ACTIVITY. El turno del modelo ahora incluye la actividad de audio detectada y todos los fotogramas de video. Si tu aplicación actualmente envía un flujo constante de fotogramas de video, es posible que desees actualizarla para que solo envíe fotogramas de video cuando haya actividad de audio y, así, evitar incurrir en costos adicionales. - Llamada a función asíncrona: Aún no se admite. La llamada a función solo es síncrona. El modelo no comenzará a responder hasta que envíes la respuesta de la herramienta. Consulta Llamadas a funciones asíncronas.
- Audio proactivo y diálogo afectivo: Estas funciones aún no son compatibles con Gemini 3.1 Flash Live. Quita de tu código cualquier configuración de estas funciones. Consulta Audio proactivo y Diálogo afectivo.
Para obtener una comparación detallada de las funciones, consulta la tabla Comparación de modelos en la guía de capacidades.