Interactions API 现已正式发布。我们建议使用此 API 来访问所有最新功能和模型。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini API 中的视频生成

Gemini API 提供两种用于生成视频的模型：Gemini Omni Flash 和 Veo。每种模式都适用于不同的工作流程。

将 Gemini Omni Flash 用作视频生成的默认模型。它可提供出色的视频连贯性、多输入源推理（同时支持文本、图片、音频和视频输入）、角色一致性、事实准确性，以及多轮对话式编辑（例如元素替换或透视变化）。需要使用场景扩展、最后一帧控制或与旧版流水线集成等特定功能。

Gemini Omni Flash

Gemini Omni Flash 是一款快速的多模态模型，可用于生成视频和进行对话式视频编辑。它擅长快速将文本提示和图片转换为短视频，并允许您使用 Interactions API 在多个回合中优化结果。

Veo 3.1 是一种可生成包含原生音频的视频的模型。它通过 generateContent API 支持视频扩展、帧特定生成和基于图像的指导等功能。

如果您需要提取和分析现有视频内容，而不是生成新视频，请参阅视频理解指南。