Изучите возможности аудио с помощью Gemini API

Gemini может отвечать на запросы о звуке. Например, Близнецы могут:

  • Опишите, обобщите или ответьте на вопросы об аудиоконтенте.
  • Предоставьте транскрипцию аудио.
  • Предоставьте ответы или транскрипцию определенного фрагмента аудио.

В этом руководстве показаны различные способы:

  • Передача звука в модель Gemini.
  • Подскажите модель Gemini по поводу звука.

Поддерживаемые аудиоформаты

Gemini поддерживает следующие типы MIME аудиоформатов:

  • WAV — аудио/wav
  • MP3 - аудио/mp3
  • AIFF — аудио/aiff
  • AAC — аудио/aac
  • OGG Vorbis — аудио/ogg
  • FLAC — аудио/flac

Технические подробности об аудио

Gemini накладывает следующие правила на аудио:

  • Gemini представляет каждую секунду аудио как 25 токенов; например, одна минута аудио представлена ​​как 1500 токенов.
  • Близнецы могут только делать выводы о реакции на англоязычную речь.
  • Близнецы могут «понимать» неречевые компоненты, такие как пение птиц или сирены.
  • Максимальная поддерживаемая продолжительность аудиоданных в одном приглашении — 9,5 часов. Gemini не ограничивает количество аудиофайлов в одном приглашении; однако общая продолжительность всех аудиофайлов в одном приглашении не может превышать 9,5 часов.
  • Gemini понижает дискретизацию аудиофайлов до разрешения данных 16 Кбит/с.
  • Если источник звука содержит несколько каналов, Gemini объединяет эти каналы в один канал.