Conheça recursos de áudio com a API Gemini

O Gemini pode responder a comandos sobre áudio. Por exemplo, o Gemini pode:

  • Descrever, resumir ou responder a perguntas sobre conteúdo de áudio.
  • Forneça uma transcrição do áudio.
  • Forneça respostas ou uma transcrição sobre um segmento específico do áudio.

Este guia demonstra diferentes maneiras de interagir com arquivos de áudio e conteúdo de áudio usando a API Gemini.

Formatos de áudio compatíveis

O Gemini oferece suporte aos seguintes tipos MIME de formato de áudio:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

Detalhes técnicos sobre áudio

O Gemini impõe as seguintes regras para áudio:

  • O Gemini representa cada segundo de áudio como 25 tokens. Por exemplo, um minuto de áudio é representado como 1.500 tokens.
  • O Gemini só pode inferir respostas a falas em inglês.
  • O Gemini pode "entender" componentes não de fala, como o canto de pássaros ou sirenes.
  • A duração máxima de dados de áudio em um único comando é de 9,5 horas. O Gemini não limita o número de arquivos de áudio em uma única solicitação.No entanto, a duração total combinada de todos os arquivos de áudio em uma única solicitação não pode exceder 9,5 horas.
  • O Gemini reduz os arquivos de áudio para uma resolução de dados de 16 Kbps.
  • Se a fonte de áudio tiver vários canais, o Gemini vai combiná-los em um único canal.

A seguir

Neste guia, mostramos como fazer upload de arquivos de áudio usando a API File e gerar saídas de texto a partir de entradas de áudio. Para saber mais, consulte os seguintes recursos:

  • Estratégias de solicitação de arquivo: a API Gemini oferece suporte a solicitações com dados de texto, imagem, áudio e vídeo, também conhecidas como solicitações multimodais.
  • Instruções do sistema: as instruções do sistema permitem orientar o comportamento do modelo com base nas suas necessidades e casos de uso específicos.
  • Orientações de segurança: às vezes, os modelos de IA generativa produzem resultados inesperados, como respostas imprecisas, parciais ou ofensivas. O pós-processamento e a avaliação humana são essenciais para limitar o risco de danos causados por essas saídas.