![]() |
![]() |
![]() |
Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプトとも呼ばれます)をサポートしています。つまり、これらのタイプのメディア ファイルをプロンプトに含めることができます。小さなファイルの場合は、プロンプトを提供するときに Gemini モデルを直接ローカル ファイルを指すように指定できます。プロンプトに含める前に、File API を使用してサイズの大きいファイルをアップロードします。
File API を使用すると、プロジェクトごとに最大 20 GB のファイルを保存でき、各ファイルのサイズは 2 GB を超えません。ファイルは 48 時間保存され、その期間内に API キーを使ってアクセスできます。また、API からダウンロードすることはできません。Files API は、Gemini API が利用可能なすべてのリージョンで無料でご利用いただけます。
File API は、model.generateContent
または model.streamGenerateContent
でコンテンツを生成するために使用できる入力を処理します。有効なファイル形式(MIME タイプ)とサポートされているモデルについては、サポートされているファイル形式をご覧ください。
このガイドでは、File API を使用してメディア ファイルをアップロードし、Gemini API への GenerateContent
呼び出しにそのファイルを含める方法について説明します。詳細については、コードサンプルをご覧ください。
サポートされているファイル形式
Gemini のモデルは、複数のファイル形式を使用したプロンプトをサポートしています。このセクションでは、プロンプトに一般的なメディア形式を使用する場合、特に画像、音声、動画、書式なしテキスト ファイルを使用する際の考慮事項について説明します。次の表に示すように、特定のモデル バージョンでのみプロンプトを表示するメディア ファイルを使用できます。
モデル | 画像 | 音声 | 動画 | 書式なしテキスト |
---|---|---|---|---|
Gemini 1.5 Pro(リリース 008 以降) | ✔(画像ファイルの最大サイズは 3,600) | ✔ | ✔ | ✔ |
画像形式
Gemini 1.5 モデルでは、プロンプトに画像データを使用できます。プロンプトに画像を使用する場合、次の制限と要件が適用されます。
- 画像は、次のいずれかの画像データ MIME タイプである必要があります。
- PNG - image/png
- .JPEG - 画像 /jpeg
- WEBP - 画像 /webp
- HEIC - 画像 /heic
- HEIF - 画像 /heif
- Gemini 1.5 モデルの場合は最大 3,600 枚の画像。
- 画像のピクセル数に特に制限はありませんが、元のアスペクト比を維持したまま、最大解像度 3,072 x 3,072 に合わせて画像が大きいものは縮小されます。
オーディオ形式
Gemini 1.5 モデルでは、音声データを使用してプロンプトを作成できます。プロンプトに音声を使用する場合、次の制限と要件が適用されます。
- 音声データは、次の一般的な音声形式 MIME タイプでサポートされています。
- WAV - 音声/WAV
- MP3 - 音声/mp3
- AIFF - 音声/aiff
- AAC - 音声/AAC
- OGG Vorbis - 音声/ogg
- FLAC - 音声/flac
- 1 つのプロンプトでサポートされる音声データの最大長は 9.5 時間です。
- 音声ファイルは 16 Kbps のデータ解像度に再サンプリングされ、複数チャンネルの音声が 1 つのチャンネルに結合されます。
- 1 つのプロンプト内の音声ファイル数に特定の上限はありませんが、1 つのプロンプト内のすべての音声ファイルの合計長は 9.5 時間以下にする必要があります。
動画形式
Gemini 1.5 モデルでは、プロンプトに動画データを使用できます。
動画データは、次の一般的な動画形式の MIME タイプでサポートされています。
- video/mp4
- video/mpeg
- 動画/動画
- 動画/AV
- video/x-flv
- 動画/mpg
- 動画/WebM
- 動画/MV
- 動画/3GPP
File API サービスは、動画を 1 フレーム/秒(FPS)で画像にサンプリングします。最適な推論品質を提供するために、変更される可能性があります。解像度や品質に関係なく、個々の画像は 258 トークンを消費します。
書式なしテキスト形式
File API では、次の MIME タイプの書式なしテキスト ファイルをアップロードできます。
- text/plain
- text/html
- text/css
- text/javascript
- application/x-javascript
- text/x-typescript
- application/x-typescript
- text/csv
- テキスト/マークダウン
- テキスト/x-python
- application/x-python-code
- application/json
- text/xml
- アプリケーション/RTF
- テキスト/RTF
MIME タイプがリストにない書式なしテキスト ファイルの場合は、上記の MIME タイプのいずれかを手動で指定してみてください。