“依托 Google 搜索进行接地”功能现已推出!
了解详情
探索 Gemini API 的音频功能
<ph type="x-smartling-placeholder"></ph>
Gemini 可以回答有关音频的问题。例如,Gemini 可以:
- 描述、总结或回答与音频内容相关的问题。
- 提供音频的转录文本。
- 提供关于音频的特定片段的回答或转录内容。
。
本指南介绍了执行下列操作的不同方法:
- 将音频传递给 Gemini 模型。
- 向 Gemini 模型提出关于音频的问题。
Gemini 支持以下音频格式 MIME 类型:
- WAV - audio/wav
- MP3 - 音频/mp3
- AIFF - audio/aiff
- AAC - audio/aac
- OGG Vorbis - 音频/ogg
- FLAC - audio/flac
有关音频的技术详情
Gemini 对音频施加以下规则:
- Gemini 将每秒钟的音频表示为 25 个词元;例如
一分钟音频表示为 1,500 个词元。
- Gemini 只能推断对英语语音的回答。
- Gemini 可以“理解”非语音组件,例如鸟鸣声或警报器。
- 单个提示中支持的音频数据长度上限为 9.5 小时。
Gemini 对单个提示中音频文件的数量没有限制;不过,
一个提示中所有音频文件的总长度不能超过
9.5 小时。
- Gemini 会对音频文件进行降采样,以达到 16 Kbps 的数据分辨率。
- 如果音频来源包含多个通道,Gemini 会合并这些通道
分解为单个频道
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-09-03。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2024-09-03。"],[],[]]