Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Gemini pode responder a comandos sobre áudio. Por exemplo, o Gemini pode:
Descreva, resuma ou responda a perguntas sobre o conteúdo de áudio.
Forneça uma transcrição do áudio.
Forneça respostas ou uma transcrição sobre um segmento específico do áudio.
.
Este guia demonstra diferentes maneiras de:
Transmitir áudio para um modelo do Gemini.
Pergunte ao modelo Gemini sobre o áudio.
Formatos de áudio compatíveis
O Gemini oferece suporte aos seguintes tipos MIME de formato de áudio:
WAV: áudio/wav
MP3: áudio/mp3
AIFF: áudio/aiff
AAC: áudio/aac
OGG Vorbis - áudio/ogg
FLAC: áudio/flac
Detalhes técnicos sobre áudio
O Gemini impõe as seguintes regras sobre áudio:
o Gemini representa cada segundo de áudio como 25 tokens. por exemplo,
um minuto de áudio é representado como 1.500 tokens.
O Gemini só pode inferir respostas à fala em inglês.
O Gemini consegue "entender" componentes não verbais, como canto de pássaro ou sirenes.
A duração máxima aceita de dados de áudio em um único comando é de 9,5 horas.
o Gemini não limita o número de arquivos de áudio em um único comando; No entanto,
a duração total combinada de todos os arquivos de áudio em um comando único não pode ultrapassar
9,5 horas.
O Gemini faz o downgrade de arquivos de áudio para uma resolução de dados de 16 Kbps.
Se a fonte de áudio tiver vários canais, o Gemini vai combinar esses canais
a um único canal.