Изучите возможности аудио с помощью Gemini API

Gemini может отвечать на запросы о звуке. Например, Близнецы могут:

  • Опишите, обобщите или ответьте на вопросы об аудиоконтенте.
  • Предоставьте транскрипцию аудио.
  • Предоставьте ответы или транскрипцию определенного фрагмента аудио.

В этом руководстве демонстрируются различные способы взаимодействия с аудиофайлами и аудиоконтентом с помощью API Gemini.

Поддерживаемые аудиоформаты

Gemini поддерживает следующие типы MIME аудиоформатов:

  • WAV — audio/wav
  • MP3 - audio/mp3
  • AIFF — audio/aiff
  • AAC — audio/aac
  • OGG Vorbis — audio/ogg
  • FLAC — audio/flac

Технические подробности об аудио

Gemini накладывает следующие правила на аудио:

  • Gemini представляет каждую секунду аудио как 25 токенов; например, одна минута аудио представлена ​​как 1500 токенов.
  • Близнецы могут только делать выводы о реакции на англоязычную речь.
  • Близнецы могут «понимать» неречевые компоненты, такие как пение птиц или сирены.
  • Максимальная поддерживаемая продолжительность аудиоданных в одном приглашении — 9,5 часов. Gemini не ограничивает количество аудиофайлов в одном приглашении; однако общая продолжительность всех аудиофайлов в одном приглашении не может превышать 9,5 часов.
  • Gemini понижает дискретизацию аудиофайлов до разрешения данных 16 Кбит/с.
  • Если источник звука содержит несколько каналов, Gemini объединяет эти каналы в один канал.

Что дальше

В этом руководстве показано, как загружать аудиофайлы с помощью File API, а затем генерировать текстовые выходные данные на основе аудиовходов. Чтобы узнать больше, посетите следующие ресурсы:

  • Стратегии запроса файлов . API Gemini поддерживает запросы с текстовыми, графическими, аудио- и видеоданными, также известные как мультимодальные запросы.
  • Системные инструкции . Системные инструкции позволяют вам управлять поведением модели в зависимости от ваших конкретных потребностей и вариантов использования.
  • Рекомендации по безопасности . Иногда генеративные модели ИИ дают неожиданные результаты, например, неточные, предвзятые или оскорбительные. Постобработка и человеческая оценка необходимы для ограничения риска вреда от таких результатов.