Gemini может отвечать на запросы о звуке. Например, Близнецы могут:
- Опишите, обобщите или ответьте на вопросы об аудиоконтенте.
- Предоставьте транскрипцию аудио.
- Предоставьте ответы или транскрипцию определенного фрагмента аудио.
В этом руководстве показаны различные способы:
- Передача звука в модель Gemini.
- Подскажите модель Gemini по поводу звука.
Поддерживаемые аудиоформаты
Gemini поддерживает следующие типы MIME аудиоформатов:
- WAV — аудио/wav
- MP3 - аудио/mp3
- AIFF — аудио/aiff
- AAC — аудио/aac
- OGG Vorbis — аудио/ogg
- FLAC — аудио/flac
Технические подробности об аудио
Gemini накладывает следующие правила на аудио:
- Gemini представляет каждую секунду аудио как 25 токенов; например, одна минута аудио представлена как 1500 токенов.
- Близнецы могут только делать выводы о реакции на англоязычную речь.
- Близнецы могут «понимать» неречевые компоненты, такие как пение птиц или сирены.
- Максимальная поддерживаемая продолжительность аудиоданных в одном приглашении — 9,5 часов. Gemini не ограничивает количество аудиофайлов в одном приглашении; однако общая продолжительность всех аудиофайлов в одном приглашении не может превышать 9,5 часов.
- Gemini понижает дискретизацию аудиофайлов до разрешения данных 16 Кбит/с.
- Если источник звука содержит несколько каналов, Gemini объединяет эти каналы в один канал.