<ph type="x-smartling-placeholder">
Gemini は音声に関するプロンプトに応答できます。たとえば、Gemini は次のことができます。
- 音声コンテンツについて説明、要約、質問に回答する。
- 音声の音声文字変換を提供します。
- 音声の特定部分に関する回答や音声文字変換を提供します。
このガイドでは、以下のさまざまな方法について説明します。
- Gemini モデルに音声を渡します。
- 音声に関するプロンプトを Gemini モデルに指示します。
サポートされているオーディオ形式
Gemini は、次の音声形式の MIME タイプをサポートしています。
- WAV - 音声/WAV
- MP3 - 音声/mp3
- AIFF - 音声/aiff
- AAC - 音声/AAC
- OGG Vorbis - 音声/ogg
- FLAC - 音声/flac
音声に関する技術的な詳細
Gemini では、音声に対して次のルールが適用されます。
- Gemini は、音声 1 秒を 25 個のトークンで表します。たとえば 1 分間の音声は 1,500 トークンで表されます。
- Gemini は英語の音声の回答のみを推測できます。
- Gemini は「理解」できる鳥の鳴き声やサイレンなどの音声以外の要素が含まれます。
- 1 つのプロンプトでサポートされる音声データの最大長は 9.5 時間です。 Gemini では、1 つのプロンプトに含まれる音声ファイルの数に制限はありません。ただし、 1 つのプロンプトに含まれるすべての音声ファイルの合計長は、超えないようにする必要があります 9.5 時間。
- Gemini は、音声ファイルを 16 Kbps のデータ解像度にダウンサンプリングします。
- 音源に複数のチャンネルが含まれている場合、Gemini はそれらのチャンネルを結合します 1 つのチャネルにまで分割できます