Explora las capacidades de audio con la API de Gemini
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Gemini puede responder instrucciones de audio. Por ejemplo, puede hacer lo siguiente:
Describe, resume o responde preguntas sobre el contenido de audio.
Proporciona una transcripción del audio.
Proporciona respuestas o una transcripción sobre un segmento específico del audio.
En esta guía, se muestran diferentes formas de hacer lo siguiente:
Pasar audio a un modelo de Gemini
Informa al modelo de Gemini sobre el audio.
Formatos de audio compatibles
Gemini admite los siguientes tipos de MIME de formato de audio:
WAV: audio/WAV
MP3: audio/mp3
AIFF: audio/aiff
AAC: audio/aac
OGG Vorbis - audio/ogg
FLAC: audio/flac
Detalles técnicos sobre el audio
Gemini impone las siguientes reglas de audio:
Gemini representa cada segundo de audio como 25 tokens; por ejemplo,
un minuto de audio se representan como 1,500 tokens.
Gemini solo puede inferir respuestas a voces en inglés.
Gemini puede "entender" componentes no verbales, como el canto de pájaro o las sirenas.
La duración máxima admitida de datos de audio en un solo mensaje es de 9.5 horas.
Gemini no limita la cantidad de archivos de audio en una sola instrucción. Sin embargo,
no puede superar la longitud total combinada de todos los archivos de audio en una sola instrucción
9.5 horas.
Gemini reduce el muestreo de archivos de audio a una resolución de datos de 16 Kbps.
Si la fuente de audio contiene varios canales, Gemini los combina.
a un solo canal.