探索 Gemini API 的音频功能

Gemini 可以回答有关音频的问题。例如,Gemini 可以:

  • 描述、总结或回答与音频内容相关的问题。
  • 提供音频的转写内容。
  • 提供关于音频的特定片段的回答或转录内容。

本指南介绍了执行下列操作的不同方法:

  • 将音频传递给 Gemini 模型。
  • 向 Gemini 模型提出关于音频的问题。

支持的音频格式

Gemini 支持以下音频格式 MIME 类型:

  • WAV - audio/wav
  • MP3 - 音频/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - 音频/ogg
  • FLAC - audio/flac

有关音频的技术详情

Gemini 对音频施加以下规则:

  • Gemini 将每秒音频表示为 25 个词元;例如,1 分钟的音频表示为 1500 个词元。
  • Gemini 只能推断对英语语音的回答。
  • Gemini 可以“理解”非语音成分,例如鸟鸣声或警报声。
  • 单个提示中支持的音频数据长度上限为 9.5 小时。Gemini 对单个提示中音频文件的数量没有限制;但是,单个提示中所有音频文件的总长度不能超过 9.5 小时。
  • Gemini 会对音频文件进行降采样,以达到 16 Kbps 的数据分辨率。
  • 如果音频来源包含多个通道,Gemini 会将这些通道合并为一个通道。