Interactions API の一般提供を開始しました。この API を使用して、最新の機能とモデルにアクセスすることをおすすめします。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini API での動画生成

Gemini API には、動画を生成するための 2 つのモデル（Gemini Omni Flash と Veo）があります。それぞれ異なるワークフロー向けに設計されています。

動画生成のデフォルトモデルとして Gemini Omni Flash を使用します。優れた動画のコヒーレンス、マルチ入力推論（テキスト、画像、音声、動画の入力を同時にサポート）、キャラクターの一貫性、事実の正確性、マルチターンの会話型編集（要素の置換や視点の変更など）を実現します。シーン拡張、最終フレーム制御、レガシーパイプラインとの統合などの特定の機能が必要な場合は、Veo 3.1 を使用します。

Gemini Omni Flash

Gemini Omni Flash は、動画生成と会話型動画編集のための高速なマルチモーダルモデルです。テキストプロンプトや画像を短い動画にすばやく変換することに優れており、Interactions API を使用して複数のターンで結果を絞り込むことができます。

Gemini Omni Flash を使ってみる →

Veo 3.1

Veo 3.1 は、ネイティブ音声を含む動画を生成するモデルです。generateContent API を通じて、動画拡張、フレーム固有の生成、画像ベースの方向などの機能をサポートしています。

Veo 3.1 を使ってみる →

動画理解

新しい動画を生成するのではなく、既存の動画コンテンツを取り込んで分析する必要がある場合は、動画理解ガイドをご覧ください。