Gemini API 中的视频生成

Gemini API 提供两种用于生成视频的模型:Gemini Omni FlashVeo。 每种模式都适用于不同的工作流程。

将 Gemini Omni Flash 用作视频生成的默认模型。它可提供出色的视频连贯性、多输入源推理(同时支持文本、图片、音频和视频输入)、角色一致性、事实准确性,以及多轮对话式编辑(例如元素替换或透视变化)。需要使用场景扩展、最后一帧控制或与旧版流水线集成等特定功能。

Gemini Omni Flash

Gemini Omni Flash 是一款快速的多模态模型,可用于生成视频和进行对话式视频编辑。它擅长快速将文本提示和图片转换为短视频,并允许您使用 Interactions API 在多个回合中优化结果。

开始使用 Gemini Omni Flash →

Veo 3.1

Veo 3.1 是一种可生成包含原生音频的视频的模型。它通过 generateContent API 支持视频扩展、帧特定生成和基于图像的指导等功能。

开始使用 Veo 3.1 →

视频理解

如果您需要提取和分析现有视频内容,而不是生成新视频,请参阅视频理解指南