A API Interactions já está disponível para todos os usuários. Recomendamos usar essa API para acessar todos os recursos e modelos mais recentes.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Prévia dinâmica do Gemini 3.1 Flash

O Gemini 3.1 Flash Live Preview é nosso modelo de áudio para áudio de baixa latência otimizado para diálogo em tempo real e aplicativos de IA com voz em primeiro lugar, com detecção de nuances acústicas, precisão numérica e reconhecimento multimodal.

Testar no Google AI Studio

Documentação

Acesse o guia da API Live para conferir a cobertura completa de recursos e funcionalidades.

gemini-3.1-flash-live-preview

Propriedade	Descrição
Código do modelo	`gemini-3.1-flash-live-preview`
Tipos de dados com suporte	Entradas Texto, imagens, áudio, vídeo Saída Texto e áudio
Limites de token^[*]	Limite de token de entrada 131.072 Limite de token de saída 65.536
Recursos	Geração de áudio Compatível Armazenamento em cache Indisponível Execução de código Indisponível Pesquisa de arquivos Incompatível Chamada de função Compatível Embasamento com o Google Maps Indisponível Geração de imagens Indisponível API Live Compatível Embasamento da pesquisa Compatível Respostas estruturadas Indisponível Raciocínio Compatível Contexto de URL Indisponível
Opções de consumo	API em lote Indisponível
Versões	Leia os padrões de versão do modelo para mais detalhes. Visualização: `gemini-3.1-flash-live-preview`
Atualização mais recente	Março de 2026
Limite de conhecimento	Janeiro de 2025

Migração do Gemini 2.5 Flash Live

O Gemini 3.1 Flash Live Preview é otimizado para diálogo em tempo real de baixa latência. Ao migrar do gemini-2.5-flash-native-audio-preview-12-2025, considere o seguinte:

String do modelo: atualize a string do modelo de gemini-2.5-flash-native-audio-preview-12-2025 para gemini-3.1-flash-live-preview.
Configuração de raciocínio: o Gemini 3.1 usa thinkingLevel (com configurações como minimal, low, medium, e high) em vez de thinkingBudget. O padrão é minimal para otimizar a latência mais baixa. Consulte Níveis e orçamentos de raciocínio.
Eventos do servidor: um único BidiGenerateContentServerContent evento agora pode conter várias partes de conteúdo simultaneamente (por exemplo, blocos de áudio e transcrição). Atualize seu código para processar todas as partes em cada evento para evitar a perda de conteúdo.
Conteúdo do cliente: send_client_content só é compatível com o histórico de contexto inicial (requer a configuração de initial_history_in_client_content em history_config). Use send_realtime_input para enviar atualizações de texto durante a conversa. Consulte Atualizações incrementais de conteúdo.
Cobertura de turnos: o padrão é TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO em vez de TURN_INCLUDES_ONLY_ACTIVITY. O turno do modelo agora inclui a atividade de áudio detectada e todos os frames de vídeo. Se o aplicativo enviar um fluxo constante de frames de vídeo, atualize-o para enviar frames de vídeo apenas quando houver atividade de áudio para evitar custos adicionais.
Chamada de função assíncrona: ainda não é compatível. A chamada de função é apenas síncrona. O modelo não vai começar a responder até que você envie a resposta da ferramenta. Consulte Chamada de função assíncrona.
Áudio proativo e diálogo afetivo: esses recursos ainda não são compatíveis com o Gemini 3.1 Flash Live. Remova qualquer configuração desses recursos do seu código. Consulte Áudio proativo e Diálogo afetivo.

Para uma comparação detalhada de recursos, consulte a tabela de comparação de modelos no guia de recursos.