Gemini API を使用した音声機能の詳細

Gemini は音声に関するプロンプトに応答できます。たとえば、Gemini は次のことができます。

  • 音声コンテンツについて説明、要約、質問に回答する。
  • 音声の音声文字変換を提供します。
  • 音声の特定部分に関する回答や音声文字変換を提供します。

このガイドでは、以下のさまざまな方法について説明します。

  • Gemini モデルに音声を渡します。
  • 音声に関するプロンプトを Gemini モデルに指示します。

サポートされているオーディオ形式

Gemini は、次の音声形式の MIME タイプをサポートしています。

  • WAV - 音声/WAV
  • MP3 - 音声/mp3
  • AIFF - 音声/aiff
  • AAC - 音声/AAC
  • OGG Vorbis - 音声/ogg
  • FLAC - 音声/flac

音声に関する技術的な詳細

Gemini では、音声に対して次のルールが適用されます。

  • Gemini では、音声 1 秒を 25 トークンで表します。たとえば、1 分間の音声は 1,500 トークンで表されます。
  • Gemini は英語の音声の回答のみを推測できます。
  • Gemini は、鳥の鳴き声やサイレンなど、音声以外のコンポーネントを「理解」できます。
  • 1 つのプロンプトでサポートされる音声データの最大長は 9.5 時間です。Gemini では、1 つのプロンプト内の音声ファイル数に制限はありません。ただし、1 つのプロンプト内のすべての音声ファイルの合計長は 9.5 時間以下にする必要があります。
  • Gemini は、音声ファイルを 16 Kbps のデータ解像度にダウンサンプリングします。
  • 音源に複数のチャンネルが含まれている場合、Gemini はこれらのチャンネルを 1 つのチャンネルに結合します。