Gemini puede responder instrucciones de audio. Por ejemplo, puede hacer lo siguiente:
- Describe, resume o responde preguntas sobre el contenido de audio.
- Proporciona una transcripción del audio.
- Proporciona respuestas o una transcripción sobre un segmento específico del audio.
En esta guía, se muestran diferentes formas de hacer lo siguiente:
- Pasar audio a un modelo de Gemini
- Informa al modelo de Gemini sobre el audio.
Formatos de audio compatibles
Gemini admite los siguientes tipos de MIME de formato de audio:
- WAV: audio/WAV
- MP3: audio/mp3
- AIFF: audio/aiff
- AAC: audio/aac
- OGG Vorbis - audio/ogg
- FLAC: audio/flac
Detalles técnicos sobre el audio
Gemini impone las siguientes reglas de audio:
- Gemini representa cada segundo de audio como 25 tokens; por ejemplo, un minuto de audio se representan como 1,500 tokens.
- Gemini solo puede inferir respuestas a voces en inglés.
- Gemini puede "entender" componentes no verbales, como el canto de pájaro o las sirenas.
- La duración máxima admitida de datos de audio en un solo mensaje es de 9.5 horas. Gemini no limita la cantidad de archivos de audio en una sola instrucción. Sin embargo, no puede superar la longitud total combinada de todos los archivos de audio en una sola instrucción 9.5 horas.
- Gemini reduce el muestreo de archivos de audio a una resolución de datos de 16 Kbps.
- Si la fuente de audio contiene varios canales, Gemini los combina. a un solo canal.