Gemini API を使用した音声機能の詳細

<ph type="x-smartling-placeholder"></ph>

Gemini は音声に関するプロンプトに応答できます。たとえば、Gemini は次のことができます。

  • 音声コンテンツについて説明、要約、質問に回答する。
  • 音声の音声文字変換を提供します。
  • 音声の特定部分に関する回答や音声文字変換を提供します。
で確認できます。

このガイドでは、以下のさまざまな方法について説明します。

  • Gemini モデルに音声を渡します。
  • 音声に関するプロンプトを Gemini モデルに指示します。

サポートされているオーディオ形式

Gemini は、次の音声形式の MIME タイプをサポートしています。

  • WAV - 音声/WAV
  • MP3 - 音声/mp3
  • AIFF - 音声/aiff
  • AAC - 音声/AAC
  • OGG Vorbis - 音声/ogg
  • FLAC - 音声/flac

音声に関する技術的な詳細

Gemini では、音声に対して次のルールが適用されます。

  • Gemini は、音声 1 秒を 25 個のトークンで表します。たとえば 1 分間の音声は 1,500 トークンで表されます。
  • Gemini は英語の音声の回答のみを推測できます。
  • Gemini は「理解」できる鳥の鳴き声やサイレンなどの音声以外の要素が含まれます。
  • 1 つのプロンプトでサポートされる音声データの最大長は 9.5 時間です。 Gemini では、1 つのプロンプトに含まれる音声ファイルのに制限はありません。ただし、 1 つのプロンプトに含まれるすべての音声ファイルの合計長は、超えないようにする必要があります 9.5 時間。
  • Gemini は、音声ファイルを 16 Kbps のデータ解像度にダウンサンプリングします。
  • 音源に複数のチャンネルが含まれている場合、Gemini はそれらのチャンネルを結合します 1 つのチャネルにまで分割できます