Gemini 1.5 Pro 2M 上下文窗口、代码执行功能和 Gemma 2 现已推出。
了解详情
探索 Gemini API 的音频功能
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
Gemini 可以回答有关音频的问题。例如,Gemini 可以:
- 描述、总结或回答与音频内容相关的问题。
- 提供音频的转写内容。
- 提供关于音频的特定片段的回答或转录内容。
本指南介绍了执行下列操作的不同方法:
- 将音频传递给 Gemini 模型。
- 向 Gemini 模型提出关于音频的问题。
Gemini 支持以下音频格式 MIME 类型:
- WAV - audio/wav
- MP3 - 音频/mp3
- AIFF - audio/aiff
- AAC - audio/aac
- OGG Vorbis - 音频/ogg
- FLAC - audio/flac
有关音频的技术详情
Gemini 对音频施加以下规则:
- Gemini 将每秒音频表示为 25 个词元;例如,1 分钟的音频表示为 1500 个词元。
- Gemini 只能推断对英语语音的回答。
- Gemini 可以“理解”非语音成分,例如鸟鸣声或警报声。
- 单个提示中支持的音频数据长度上限为 9.5 小时。Gemini 对单个提示中音频文件的数量没有限制;但是,单个提示中所有音频文件的总长度不能超过 9.5 小时。
- Gemini 会对音频文件进行降采样,以达到 16 Kbps 的数据分辨率。
- 如果音频来源包含多个通道,Gemini 会将这些通道合并为一个通道。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-07-12。
[{
"type": "thumb-down",
"id": "missingTheInformationINeed",
"label":"没有我需要的信息"
},{
"type": "thumb-down",
"id": "tooComplicatedTooManySteps",
"label":"太复杂/步骤太多"
},{
"type": "thumb-down",
"id": "outOfDate",
"label":"内容需要更新"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"翻译问题"
},{
"type": "thumb-down",
"id": "samplesCodeIssue",
"label":"示例/代码问题"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"其他"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"易于理解"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"解决了我的问题"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"其他"
}]