Gemini は音声に関するプロンプトに応答できます。たとえば、Gemini は次のことができます。
- 音声コンテンツについて説明、要約、質問に回答する。
- 音声の音声文字変換を提供します。
- 音声の特定部分に関する回答や音声文字変換を提供します。
このガイドでは、以下のさまざまな方法について説明します。
- Gemini モデルに音声を渡します。
- 音声に関するプロンプトを Gemini モデルに指示します。
サポートされているオーディオ形式
Gemini は、次の音声形式の MIME タイプをサポートしています。
- WAV - 音声/WAV
- MP3 - 音声/mp3
- AIFF - 音声/aiff
- AAC - 音声/AAC
- OGG Vorbis - 音声/ogg
- FLAC - 音声/flac
音声に関する技術的な詳細
Gemini では、音声に対して次のルールが適用されます。
- Gemini では、音声 1 秒を 25 トークンで表します。たとえば、1 分間の音声は 1,500 トークンで表されます。
- Gemini は英語の音声の回答のみを推測できます。
- Gemini は、鳥の鳴き声やサイレンなど、音声以外のコンポーネントを「理解」できます。
- 1 つのプロンプトでサポートされる音声データの最大長は 9.5 時間です。Gemini では、1 つのプロンプト内の音声ファイル数に制限はありません。ただし、1 つのプロンプト内のすべての音声ファイルの合計長は 9.5 時間以下にする必要があります。
- Gemini は、音声ファイルを 16 Kbps のデータ解像度にダウンサンプリングします。
- 音源に複数のチャンネルが含まれている場合、Gemini はこれらのチャンネルを 1 つのチャンネルに結合します。