Explora las capacidades de audio con la API de Gemini

Gemini puede responder instrucciones de audio. Por ejemplo, puede hacer lo siguiente:

  • Describe, resume o responde preguntas sobre el contenido de audio.
  • Proporciona una transcripción del audio.
  • Proporciona respuestas o una transcripción sobre un segmento específico del audio.

En esta guía, se muestran diferentes formas de hacer lo siguiente:

  • Pasar audio a un modelo de Gemini
  • Informa al modelo de Gemini sobre el audio.

Formatos de audio compatibles

Gemini admite los siguientes tipos de MIME de formato de audio:

  • WAV: audio/WAV
  • MP3: audio/mp3
  • AIFF: audio/aiff
  • AAC: audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC: audio/flac

Detalles técnicos sobre el audio

Gemini impone las siguientes reglas de audio:

  • Gemini representa cada segundo de audio como 25 tokens; por ejemplo, un minuto de audio se representa como 1,500 tokens.
  • Gemini solo puede inferir respuestas a voces en inglés.
  • Gemini puede "comprender" componentes no verbales, como el canto de pájaro o las sirenas.
  • La duración máxima admitida de datos de audio en un solo mensaje es de 9.5 horas. Gemini no limita la cantidad de archivos de audio en una sola instrucción. Sin embargo, la duración total combinada de todos los archivos de audio en una sola instrucción no puede superar las 9.5 horas.
  • Gemini reduce el muestreo de archivos de audio a una resolución de datos de 16 Kbps.
  • Si la fuente de audio contiene varios canales, Gemini los combina en uno solo.