A API Gemini oferece dois modelos para gerar vídeos: Gemini Omni Flash e Veo. Cada um foi projetado para fluxos de trabalho diferentes.
Usar o Gemini Omni Flash como modelo padrão para geração de vídeo. Ele oferece coerência de vídeo superior, raciocínio com várias entradas (compatível com entradas de texto, imagem, áudio e vídeo simultaneamente), consistência de personagens, precisão factual e edição conversacional multiturno (por exemplo, substituição de elementos ou mudanças de perspectiva). Use o Veo 3.1 para recursos específicos, como extensão de cena, controle do último frame ou integração com pipelines legados.
Gemini Omni Flash
O Gemini Omni Flash é um modelo multimodal rápido para geração e edição conversacional de vídeos. Ela é excelente para transformar rapidamente comandos de texto e imagens em vídeos curtos, além de permitir refinar os resultados em várias rodadas usando a API Interactions.
Comece a usar o Gemini Omni Flash →
Veo 3.1
O Veo 3.1 é um modelo para gerar vídeos com áudio nativo. Ela oferece suporte a recursos como extensão de vídeo, geração específica de frames e orientação baseada em imagens pela API generateContent.
Compreensão de vídeo
Se você precisar ingerir e analisar conteúdo de vídeo existente em vez de gerar novos vídeos, consulte o guia de compreensão de vídeo.