O Gemini pode responder a comandos sobre áudio. Por exemplo, o Gemini pode:
- Descreva, resuma ou responda a perguntas sobre o conteúdo de áudio.
- Forneça uma transcrição do áudio.
- Forneça respostas ou uma transcrição sobre um segmento específico do áudio.
Este guia demonstra diferentes maneiras de:
- Transmitir áudio para um modelo do Gemini.
- Pergunte ao modelo Gemini sobre o áudio.
Formatos de áudio compatíveis
O Gemini oferece suporte aos seguintes tipos MIME de formato de áudio:
- WAV: áudio/wav
- MP3: áudio/mp3
- AIFF: áudio/aiff
- AAC: áudio/aac
- OGG Vorbis - áudio/ogg
- FLAC: áudio/flac
Detalhes técnicos sobre áudio
O Gemini impõe as seguintes regras sobre áudio:
- o Gemini representa cada segundo de áudio como 25 tokens. por exemplo, um minuto de áudio é representado como 1.500 tokens.
- O Gemini só pode inferir respostas à fala em inglês.
- O Gemini consegue "entender" componentes não verbais, como canto de pássaro ou sirenes.
- A duração máxima aceita de dados de áudio em um único comando é de 9,5 horas. o Gemini não limita o número de arquivos de áudio em um único comando; No entanto, a duração total combinada de todos os arquivos de áudio em um comando único não pode ultrapassar 9,5 horas.
- O Gemini faz o downgrade de arquivos de áudio para uma resolução de dados de 16 Kbps.
- Se a fonte de áudio tiver vários canais, o Gemini vai combinar esses canais a um único canal.