Gemini API を使用した音声機能の詳細

Gemini は、音声に関するプロンプトに応答できます。たとえば、Gemini は以下のことを行えます。

  • 音声コンテンツの説明、要約、質問への回答。
  • 音声の文字起こしを提供します。
  • 音声の特定のセグメントに関する回答または文字変換を提供します。

このガイドでは、Gemini API を使用して音声ファイルと音声コンテンツを操作するさまざまな方法について説明します。

サポートされているオーディオ形式

Gemini は、次の音声形式の MIME タイプをサポートしています。

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

オーディオに関する技術的な詳細

Gemini では、音声に対して次のルールが適用されます。

  • Gemini では、音声の 1 秒を 25 個のトークンとして表します。たとえば、1 分間の音声は 1,500 個のトークンとして表されます。
  • Gemini は、英語の音声に対する回答のみを推測できます。
  • Gemini は、鳥のさえずりやサイレンなど、音声以外のコンポーネントを「理解」できます。
  • 1 つのプロンプトでサポートされる音声データの最大長は 9.5 時間です。Gemini では、1 つのプロンプト内の音声ファイルのに制限はありませんが、1 つのプロンプト内のすべての音声ファイルの合計時間は 9.5 時間を超えることはできません。
  • Gemini は、音声ファイルを 16 Kbps のデータ解像度にダウンサンプリングします。
  • 音声ソースに複数のチャンネルが含まれている場合、Gemini はこれらのチャンネルを 1 つのチャンネルに統合します。

次のステップ

このガイドでは、File API を使用して音声ファイルをアップロードし、音声入力からテキスト出力を生成する方法について説明します。詳細については、次のリソースをご覧ください。

  • ファイル プロンプト戦略: Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプト)をサポートしています。
  • システム指示: システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。
  • 安全性に関するガイダンス: 生成 AI モデルは、不正確な出力、偏見のある出力、不適切な出力など、予期しない出力を生成することがあります。このような出力による被害のリスクを軽減するには、後処理と人間による評価が不可欠です。