Conheça recursos de áudio com a API Gemini

O Gemini pode responder a comandos sobre áudio. Por exemplo, o Gemini pode:

  • Descreva, resuma ou responda a perguntas sobre o conteúdo de áudio.
  • Forneça uma transcrição do áudio.
  • Forneça respostas ou uma transcrição sobre um segmento específico do áudio.

Este guia demonstra diferentes maneiras de:

  • Transmitir áudio para um modelo do Gemini.
  • Pergunte ao modelo Gemini sobre o áudio.

Formatos de áudio compatíveis

O Gemini oferece suporte aos seguintes tipos MIME de formato de áudio:

  • WAV: áudio/wav
  • MP3: áudio/mp3
  • AIFF: áudio/aiff
  • AAC: áudio/aac
  • OGG Vorbis - áudio/ogg
  • FLAC: áudio/flac

Detalhes técnicos sobre áudio

O Gemini impõe as seguintes regras sobre áudio:

  • O Gemini representa cada segundo de áudio como 25 tokens. Por exemplo, um minuto de áudio é representado como 1.500 tokens.
  • O Gemini só pode inferir respostas à fala em inglês.
  • O Gemini consegue "entender" componentes não verbais, como cantos de pássaro ou sirenes.
  • A duração máxima aceita de dados de áudio em um único comando é de 9,5 horas. O Gemini não limita o número de arquivos de áudio em um único comando.No entanto, a duração total combinada de todos os arquivos de áudio em um único comando não pode exceder 9,5 horas.
  • O Gemini faz o downgrade de arquivos de áudio para uma resolução de dados de 16 Kbps.
  • Se a fonte de áudio tiver vários canais, o Gemini vai combinar esses canais em um único canal.