L'API Gemini offre due modelli per la generazione di video: Gemini Omni Flash e Veo. Ognuno è progettato per flussi di lavoro diversi.
Utilizza Gemini Omni Flash come modello predefinito per la generazione di video. Fornisce una coerenza video superiore, ragionamento multi-input (supporta contemporaneamente input di testo, immagini, audio e video), coerenza dei personaggi, accuratezza fattuale ed editing conversazionale multi-turno (ad es. sostituzione di elementi o modifiche della prospettiva). Utilizza Veo 3.1 se sono richieste funzionalità specifiche come l'estensione della scena, il controllo dell'ultimo frame o l'integrazione con pipeline legacy.
Gemini Omni Flash
Gemini Omni Flash è un modello multimodale veloce per la generazione di video e l'editing video conversazionale. È ideale per trasformare rapidamente prompt di testo e immagini in brevi video e ti consente di perfezionare i risultati in più turni utilizzando l'API Interactions.
Inizia a utilizzare Gemini Omni Flash →
Veo 3.1
Veo 3.1 è un modello per la generazione di video con audio nativo. Supporta funzionalità come l'estensione video, la generazione specifica per frame e la direzione basata su immagini tramite l'API generateContent.
Comprensione dei video
Se devi importare e analizzare contenuti video esistenti anziché generare nuovi video, consulta la guida Comprensione dei video.