メディア ファイルを使用したプロンプト


ai.google.dev で表示 Google Colab で実行 GitHub のソースを表示

Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプトとも呼ばれます)をサポートしています。つまり、これらのタイプのメディア ファイルをプロンプトに含めることができます。小さなファイルの場合は、プロンプトを提供するときに Gemini モデルを直接ローカル ファイルを指すように指定できます。プロンプトに含める前に、File API を使用してサイズの大きいファイルをアップロードします。

File API を使用すると、プロジェクトごとに最大 20 GB のファイルを保存でき、各ファイルのサイズは 2 GB を超えません。ファイルは 48 時間保存され、その期間内に API キーを使ってアクセスできます。また、API からダウンロードすることはできません。Files API は、Gemini API が利用可能なすべてのリージョンで無料でご利用いただけます。

File API は、model.generateContent または model.streamGenerateContent でコンテンツを生成するために使用できる入力を処理します。有効なファイル形式(MIME タイプ)とサポートされているモデルについては、サポートされているファイル形式をご覧ください。

このガイドでは、File API を使用してメディア ファイルをアップロードし、Gemini API への GenerateContent 呼び出しにそのファイルを含める方法について説明します。詳細については、コードサンプルをご覧ください。

サポートされているファイル形式

Gemini のモデルは、複数のファイル形式を使用したプロンプトをサポートしています。このセクションでは、プロンプトに一般的なメディア形式を使用する場合、特に画像、音声、動画、書式なしテキスト ファイルを使用する際の考慮事項について説明します。次の表に示すように、特定のモデル バージョンでのみプロンプトを表示するメディア ファイルを使用できます。

モデル 画像 音声 動画 書式なしテキスト
Gemini 1.5 Pro(リリース 008 以降) ✔(画像ファイルの最大サイズは 3,600)

画像形式

Gemini 1.5 モデルでは、プロンプトに画像データを使用できます。プロンプトに画像を使用する場合、次の制限と要件が適用されます。

  • 画像は、次のいずれかの画像データ MIME タイプである必要があります。
    • PNG - image/png
    • .JPEG - 画像 /jpeg
    • WEBP - 画像 /webp
    • HEIC - 画像 /heic
    • HEIF - 画像 /heif
  • Gemini 1.5 モデルの場合は最大 3,600 枚の画像。
  • 画像のピクセル数に特に制限はありませんが、元のアスペクト比を維持したまま、最大解像度 3,072 x 3,072 に合わせて画像が大きいものは縮小されます。

オーディオ形式

Gemini 1.5 モデルでは、音声データを使用してプロンプトを作成できます。プロンプトに音声を使用する場合、次の制限と要件が適用されます。

  • 音声データは、次の一般的な音声形式 MIME タイプでサポートされています。
    • WAV - 音声/WAV
    • MP3 - 音声/mp3
    • AIFF - 音声/aiff
    • AAC - 音声/AAC
    • OGG Vorbis - 音声/ogg
    • FLAC - 音声/flac
  • 1 つのプロンプトでサポートされる音声データの最大長は 9.5 時間です。
  • 音声ファイルは 16 Kbps のデータ解像度に再サンプリングされ、複数チャンネルの音声が 1 つのチャンネルに結合されます。
  • 1 つのプロンプト内の音声ファイル数に特定の上限はありませんが、1 つのプロンプト内のすべての音声ファイルの合計長は 9.5 時間以下にする必要があります。

動画形式

Gemini 1.5 モデルでは、プロンプトに動画データを使用できます。

  • 動画データは、次の一般的な動画形式の MIME タイプでサポートされています。

    • video/mp4
    • video/mpeg
    • 動画/動画
    • 動画/AV
    • video/x-flv
    • 動画/mpg
    • 動画/WebM
    • 動画/MV
    • 動画/3GPP
  • File API サービスは、動画を 1 フレーム/秒(FPS)で画像にサンプリングします。最適な推論品質を提供するために、変更される可能性があります。解像度や品質に関係なく、個々の画像は 258 トークンを消費します。

書式なしテキスト形式

File API では、次の MIME タイプの書式なしテキスト ファイルをアップロードできます。

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • text/csv
  • テキスト/マークダウン
  • テキスト/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • アプリケーション/RTF
  • テキスト/RTF

MIME タイプがリストにない書式なしテキスト ファイルの場合は、上記の MIME タイプのいずれかを手動で指定してみてください。