Gemini может отвечать на запросы о звуке. Например, Близнецы могут:
- Опишите, обобщите или ответьте на вопросы об аудиоконтенте.
- Предоставьте транскрипцию аудио.
- Предоставьте ответы или транскрипцию определенного фрагмента аудио.
В этом руководстве демонстрируются различные способы взаимодействия с аудиофайлами и аудиоконтентом с помощью API Gemini.
Поддерживаемые аудиоформаты
Gemini поддерживает следующие типы MIME аудиоформатов:
- WAV —
audio/wav
- MP3 -
audio/mp3
- AIFF —
audio/aiff
- AAC —
audio/aac
- OGG Vorbis —
audio/ogg
- FLAC —
audio/flac
Технические подробности об аудио
Gemini накладывает следующие правила на аудио:
- Gemini представляет каждую секунду аудио как 25 токенов; например, одна минута аудио представлена как 1500 токенов.
- Близнецы могут только делать выводы о реакции на англоязычную речь.
- Близнецы могут «понимать» неречевые компоненты, такие как пение птиц или сирены.
- Максимальная поддерживаемая продолжительность аудиоданных в одном приглашении — 9,5 часов. Gemini не ограничивает количество аудиофайлов в одном приглашении; однако общая продолжительность всех аудиофайлов в одном приглашении не может превышать 9,5 часов.
- Gemini понижает дискретизацию аудиофайлов до разрешения данных 16 Кбит/с.
- Если источник звука содержит несколько каналов, Gemini объединяет эти каналы в один канал.
Что дальше
В этом руководстве показано, как загружать аудиофайлы с помощью File API, а затем генерировать текстовые выходные данные на основе аудиовходов. Чтобы узнать больше, посетите следующие ресурсы:
- Стратегии запроса файлов . API Gemini поддерживает запросы с текстовыми, графическими, аудио- и видеоданными, также известные как мультимодальные запросы.
- Системные инструкции . Системные инструкции позволяют вам управлять поведением модели в зависимости от ваших конкретных потребностей и вариантов использования.
- Рекомендации по безопасности . Иногда генеративные модели ИИ дают неожиданные результаты, например, неточные, предвзятые или оскорбительные. Постобработка и человеческая оценка необходимы для ограничения риска вреда от таких результатов.