Gemini API での動画生成

Gemini API には、動画を生成するための 2 つのモデル(Gemini Omni FlashVeo)があります。それぞれ異なるワークフロー向けに設計されています。

動画生成のデフォルト モデルとして Gemini Omni Flash を使用します。優れた動画のコヒーレンス、マルチ入力推論(テキスト、画像、音声、動画の入力を同時にサポート)、キャラクターの一貫性、事実の正確性、マルチターンの会話型編集(要素の置換や視点の変更など)を実現します。シーン拡張、最終フレーム制御、レガシー パイプラインとの統合などの特定の機能が必要な場合は、Veo 3.1 を使用します。

Gemini Omni Flash

Gemini Omni Flash は、動画生成と会話型動画編集のための高速なマルチモーダル モデルです。テキスト プロンプトや画像を短い動画にすばやく変換することに優れており、Interactions API を使用して複数のターンで結果を絞り込むことができます。

Gemini Omni Flash を使ってみる →

Veo 3.1

Veo 3.1 は、ネイティブ音声を含む動画を生成するモデルです。generateContent API を通じて、動画拡張、フレーム固有の生成、画像ベースの方向などの機能をサポートしています。

Veo 3.1 を使ってみる →

動画理解

新しい動画を生成するのではなく、既存の動画コンテンツを取り込んで分析する必要がある場合は、動画理解ガイドをご覧ください。