L'API Gemini propose deux modèles pour générer des vidéos : Gemini Omni Flash et Veo. Chacun est conçu pour des workflows différents.
Utilisez Gemini Omni Flash comme modèle par défaut pour la génération de vidéos. Il offre une cohérence vidéo supérieure, un raisonnement multi-entrées (prenant en charge simultanément les entrées de texte, d'image, audio et vidéo), la cohérence des personnages, l'exactitude factuelle et l'édition conversationnelle multitour (par exemple, le remplacement d'éléments ou les changements de perspective). Vous avez besoin d'utiliser Veo 3.1 pour des fonctionnalités spécifiques telles que l'extension de scène, le contrôle de la dernière image ou l'intégration à des pipelines existants.
Gemini Omni Flash
Gemini Omni Flash est un modèle multimodal rapide pour la génération de vidéos et le montage vidéo conversationnel. Elle excelle dans la transformation rapide de requêtes textuelles et d'images en courtes vidéos, et vous permet d'affiner les résultats sur plusieurs tours à l'aide de l'API Interactions.
Premiers pas avec Gemini Omni Flash →
Veo 3.1
Veo 3.1 est un modèle permettant de générer des vidéos avec de l'audio natif. Il est compatible avec des fonctionnalités telles que l'extension vidéo, la génération d'images spécifiques et l'orientation basée sur les images via l'API generateContent.
Compréhension des vidéos
Si vous devez ingérer et analyser du contenu vidéo existant plutôt que d'en générer un nouveau, consultez le guide de compréhension des vidéos.