探索 Gemini API 的音频功能

Gemini 可以回答有关音频的提示。例如,Gemini 可以:

  • 描述、总结或回答与音频内容相关的问题。
  • 提供音频转写内容。
  • 提供有关音频特定片段的答案或转写内容。

本指南演示了使用 Gemini API 与音频文件和音频内容进行交互的不同方式。

支持的音频格式

Gemini 支持以下音频格式 MIME 类型:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

音频的技术详情

Gemini 对音频施加以下规则:

  • Gemini 将每秒的音频表示为 25 个令牌;例如,一分钟的音频表示为 1,500 个令牌。
  • Gemini 只能推断对英语语音的回答。
  • Gemini 可以“理解”非语音内容,例如鸟鸣或警笛。
  • 单个问题中音频数据的支持时长上限为 9.5 小时。Gemini 不限制单个问题中的音频文件数量;不过,单个问题中的所有音频文件总时长不得超过 9.5 小时。
  • Gemini 会将音频文件下采样为 16 Kbps 的数据分辨率。
  • 如果音频源包含多个声道,Gemini 会将这些声道合并为单个声道。

后续步骤

本指南介绍了如何使用 File API 上传音频文件,然后根据音频输入生成文本输出。如需了解详情,请参阅以下资源:

  • 文件提示策略:Gemini API 支持使用文本、图片、音频和视频数据进行提示,也称为多模式提示。
  • 系统说明:借助系统说明,您可以根据自己的特定需求和使用情形来控制模型的行为。
  • 安全指南:生成式 AI 模型有时会生成意外的输出,例如不准确、有偏见或令人反感的输出。后处理和人工评估对于限制此类输出造成伤害的风险至关重要。