O Deep Research do Gemini já está disponível em pré-lançamento com planejamento colaborativo, visualização, suporte a MCP e muito mais.

Prévia dinâmica do Gemini 3.1 Flash

A prévia do Gemini 3.1 Flash Live é nosso modelo de baixa latência, áudio para áudio, otimizado para diálogo em tempo real e aplicativos de IA que priorizam a voz com detecção de nuances acústicas, precisão numérica e reconhecimento multimodal.

Testar no Google AI Studio

Documentação

Acesse o guia da API Live para conferir a cobertura completa de recursos e funcionalidades.

gemini-3.1-flash-live-preview

Propriedade	Descrição
Código do modelo	`gemini-3.1-flash-live-preview`
Tipos de dados aceitos	Entradas (link em inglês) Texto, imagens, áudio, vídeo Saída Texto e áudio
Limites de token^[*]	Limite de tokens de entrada 131.072 Limite de token de saída 65.536
Recursos	Geração de áudio Compatível API Batch incompatível Armazenamento em cache incompatível Execução de código incompatível Pesquisa de arquivos Não aceito Chamadas de função Compatível Embasamento com o Google Maps incompatível Geração de imagens incompatível API Live Compatível Embasamento da pesquisa Compatível Saídas estruturadas incompatível Raciocínio Compatível Contexto do URL incompatível
Versões do	Leia os padrões de versão do modelo para mais detalhes. Visualização: `gemini-3.1-flash-live-preview`
Última atualização	Março de 2026
Limite de conhecimento	Janeiro de 2025

Migrar do Gemini 2.5 Flash Live

O pré-lançamento do Gemini 3.1 Flash Live é otimizado para diálogo em tempo real e baixa latência. Ao migrar do gemini-2.5-flash-native-audio-preview-12-2025, considere o seguinte:

String do modelo: atualize a string do modelo de gemini-2.5-flash-native-audio-preview-12-2025 para gemini-3.1-flash-live-preview.
Configuração de raciocínio: o Gemini 3.1 usa thinkingLevel (com configurações como minimal, low, medium e high) em vez de thinkingBudget. O padrão é minimal para otimizar a menor latência. Consulte Níveis de raciocínio e orçamentos.
Eventos do servidor: um único evento BidiGenerateContentServerContent agora pode conter várias partes de conteúdo simultaneamente (por exemplo, trechos de áudio e transcrição). Atualize seu código para processar todas as partes em cada evento e evitar a perda de conteúdo.
Conteúdo do cliente: o send_client_content só é compatível com o preenchimento do histórico de contexto inicial (requer a definição de initial_history_in_client_content em history_config). Use send_realtime_input para enviar atualizações de texto durante a conversa. Consulte Atualizações incrementais de conteúdo.
Cobertura de curva: o padrão é TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO em vez de TURN_INCLUDES_ONLY_ACTIVITY. Agora, a vez do modelo inclui a atividade de áudio detectada e todos os frames de vídeo. Se o aplicativo envia um fluxo constante de frames de vídeo, atualize-o para enviar frames apenas quando houver atividade de áudio e evitar custos adicionais.
Chamada de função assíncrona: ainda não disponível. A chamada de função é síncrona apenas. O modelo só vai começar a responder depois que você enviar a resposta da ferramenta. Consulte Chamada de função assíncrona.
Áudio proativo e diálogo afetivo: esses recursos ainda não são compatíveis com o Gemini 3.1 Flash Live. Remova qualquer configuração desses recursos do seu código. Consulte Áudio proativo e Diálogo afetivo.

Para uma comparação detalhada de recursos, consulte a tabela Comparação de modelos no guia de recursos.