Оптимизируйте свои подборки
Сохраняйте и классифицируйте контент в соответствии со своими настройками.
Gemini может отвечать на запросы о звуке. Например, Близнецы могут:
Опишите, обобщите или ответьте на вопросы об аудиоконтенте.
Предоставьте транскрипцию аудио.
Предоставьте ответы или транскрипцию определенного фрагмента аудио.
В этом руководстве демонстрируются различные способы взаимодействия с аудиофайлами и аудиоконтентом с помощью API Gemini.
Поддерживаемые аудиоформаты
Gemini поддерживает следующие типы MIME аудиоформатов:
WAV — аудио/wav
MP3 - аудио/mp3
AIFF — аудио/aiff
AAC — аудио/aac
OGG Vorbis — аудио/ogg
FLAC — аудио/flac
Технические подробности об аудио
Gemini накладывает следующие правила на аудио:
Gemini представляет каждую секунду аудио как 25 токенов; например, одна минута аудио представлена как 1500 токенов.
Близнецы могут только делать выводы о реакции на англоязычную речь.
Близнецы могут «понимать» неречевые компоненты, такие как пение птиц или сирены.
Максимальная поддерживаемая продолжительность аудиоданных в одном приглашении — 9,5 часов. Gemini не ограничивает количество аудиофайлов в одном приглашении; однако общая продолжительность всех аудиофайлов в одном приглашении не может превышать 9,5 часов.
Gemini понижает дискретизацию аудиофайлов до разрешения данных 16 Кбит/с.
Если источник звука содержит несколько каналов, Gemini объединяет эти каналы в один канал.
Что дальше
В этом руководстве показано, как загружать аудиофайлы с помощью File API, а затем генерировать текстовые выходные данные на основе аудиовходов. Чтобы узнать больше, посетите следующие ресурсы:
Стратегии запроса файлов . API Gemini поддерживает запросы с текстовыми, графическими, аудио- и видеоданными, также известные как мультимодальные запросы.
Системные инструкции . Системные инструкции позволяют вам управлять поведением модели в зависимости от ваших конкретных потребностей и вариантов использования.
Рекомендации по безопасности . Иногда генеративные модели искусственного интеллекта дают неожиданные результаты, например, неточные, предвзятые или оскорбительные. Постобработка и человеческая оценка необходимы для ограничения риска вреда от таких результатов.