Explora las capacidades de audio con la API de Gemini

Gemini puede responder instrucciones sobre el audio. Por ejemplo, Gemini puede hacer lo siguiente:

  • Describir, resumir o responder preguntas sobre el contenido de audio
  • Proporciona una transcripción del audio.
  • Proporcionar respuestas o una transcripción sobre un segmento específico del audio

En esta guía, se muestran diferentes formas de interactuar con archivos de audio y contenido de audio con la API de Gemini.

Formatos de audio compatibles

Gemini admite los siguientes tipos de MIME de formato de audio:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF: audio/aiff
  • AAC - audio/aac
  • OGG Vorbis: audio/ogg
  • FLAC - audio/flac

Detalles técnicos sobre el audio

Gemini impone las siguientes reglas en el audio:

  • Gemini representa cada segundo de audio como 25 tokens. Por ejemplo, un minuto de audio se representa como 1,500 tokens.
  • Gemini solo puede inferir respuestas a la voz en inglés.
  • Gemini puede “entender” componentes que no son de voz, como cantos de pájaros o sirenas.
  • La duración máxima admitida de los datos de audio en una sola instrucción es de 9.5 horas. Gemini no limita la cantidad de archivos de audio en una sola instrucción. Sin embargo, la duración total combinada de todos los archivos de audio en una sola instrucción no puede exceder las 9.5 horas.
  • Gemini reduce la muestra de los archivos de audio a una resolución de datos de 16 Kbps.
  • Si la fuente de audio contiene varios canales, Gemini los combina en uno solo.

¿Qué sigue?

En esta guía, se muestra cómo subir archivos de audio con la API de File y, luego, generar resultados de texto a partir de entradas de audio. Para obtener más información, consulta los siguientes recursos:

  • Estrategias de indicaciones de archivos: La API de Gemini admite indicaciones con datos de texto, imagen, audio y video, también conocidos como indicaciones multimodales.
  • Instrucciones del sistema: Las instrucciones del sistema te permiten dirigir el comportamiento del modelo según tus necesidades y casos de uso específicos.
  • Orientación de seguridad: A veces, los modelos de IA generativa producen resultados inesperados, como resultados imprecisos, sesgados o ofensivos. El procesamiento posterior y la evaluación humana son esenciales para limitar el riesgo de daños que pueden causar estos resultados.