La API de Interactions ya está disponible de forma general. Te recomendamos que uses esta API para acceder a todos los modelos y funciones más recientes.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Generación de video en la API de Gemini

La API de Gemini ofrece dos modelos para generar videos: Gemini Omni Flash y Veo. Cada uno está diseñado para diferentes flujos de trabajo.

Usa Gemini Omni Flash como modelo predeterminado para la generación de videos. Proporciona coherencia de video superior, razonamiento de varias entradas (admite entradas de texto, imágenes, audio y video de forma simultánea), coherencia de personajes, precisión factual y edición conversacional de varios turnos (p.ej., reemplazo de elementos o cambios de perspectiva). Usa Veo 3.1 para capacidades específicas, como la extensión de escenas, el control del último fotograma o la integración con canalizaciones heredadas.

Gemini Omni Flash

Gemini Omni Flash es un modelo multimodal rápido para la generación de videos y la edición conversacional de videos. Se destaca por convertir rápidamente imágenes y mensajes de texto en videos cortos, y te permite refinar los resultados en varios turnos con la API de Interactions.

Comienza a usar Gemini Omni Flash →

Veo 3.1

Veo 3.1 es un modelo para generar videos con audio nativo. Admite funciones como la extensión de video, la generación específica de fotogramas y la dirección basada en imágenes a través de la API de generateContent.

Comienza a usar Veo 3.1 →

Comprensión de videos

Si necesitas ingerir y analizar contenido de video existente en lugar de generar videos nuevos, consulta la guía de comprensión de videos.