Gemini 2.0 Flash 实验版现已推出!
了解详情
探索 Gemini API 的音频功能
Gemini 可以回答有关音频的提示。例如,Gemini 可以:
- 描述、总结或回答与音频内容相关的问题。
- 提供音频转写内容。
- 提供有关音频特定片段的答案或转写内容。
本指南演示了使用 Gemini API 与音频文件和音频内容进行交互的不同方式。
Gemini 支持以下音频格式 MIME 类型:
- WAV -
audio/wav
- MP3 -
audio/mp3
- AIFF -
audio/aiff
- AAC -
audio/aac
- OGG Vorbis -
audio/ogg
- FLAC -
audio/flac
音频的技术详情
Gemini 对音频施加以下规则:
- Gemini 将每秒的音频表示为 25 个令牌;例如,一分钟的音频表示为 1,500 个令牌。
- Gemini 只能推断对英语语音的回答。
- Gemini 可以“理解”非语音内容,例如鸟鸣或警笛。
- 单个问题中音频数据的支持时长上限为 9.5 小时。Gemini 不限制单个问题中的音频文件数量;不过,单个问题中的所有音频文件总时长不得超过 9.5 小时。
- Gemini 会将音频文件下采样为 16 Kbps 的数据分辨率。
- 如果音频源包含多个声道,Gemini 会将这些声道合并为单个声道。
后续步骤
本指南介绍了如何使用 File API 上传音频文件,然后根据音频输入生成文本输出。如需了解详情,请参阅以下资源:
- 文件提示策略:Gemini API 支持使用文本、图片、音频和视频数据进行提示,也称为多模式提示。
- 系统说明:借助系统说明,您可以根据自己的特定需求和使用情形来控制模型的行为。
- 安全指南:生成式 AI 模型有时会生成意外的输出,例如不准确、有偏见或令人反感的输出。后处理和人工评估对于限制此类输出造成伤害的风险至关重要。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-12-21。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2024-12-21。"],[],[]]