O Gemini pode responder a comandos sobre áudio. Por exemplo, o Gemini pode:
- Descrever, resumir ou responder a perguntas sobre conteúdo de áudio.
- Forneça uma transcrição do áudio.
- Forneça respostas ou uma transcrição sobre um segmento específico do áudio.
Este guia demonstra diferentes maneiras de interagir com arquivos de áudio e conteúdo de áudio usando a API Gemini.
Formatos de áudio compatíveis
O Gemini oferece suporte aos seguintes tipos MIME de formato de áudio:
- WAV -
audio/wav
- MP3 -
audio/mp3
- AIFF -
audio/aiff
- AAC -
audio/aac
- OGG Vorbis -
audio/ogg
- FLAC -
audio/flac
Detalhes técnicos sobre áudio
O Gemini impõe as seguintes regras para áudio:
- O Gemini representa cada segundo de áudio como 25 tokens. Por exemplo, um minuto de áudio é representado como 1.500 tokens.
- O Gemini só pode inferir respostas a falas em inglês.
- O Gemini pode "entender" componentes não de fala, como o canto de pássaros ou sirenes.
- A duração máxima de dados de áudio em um único comando é de 9,5 horas. O Gemini não limita o número de arquivos de áudio em uma única solicitação.No entanto, a duração total combinada de todos os arquivos de áudio em uma única solicitação não pode exceder 9,5 horas.
- O Gemini reduz os arquivos de áudio para uma resolução de dados de 16 Kbps.
- Se a fonte de áudio tiver vários canais, o Gemini vai combiná-los em um único canal.
A seguir
Neste guia, mostramos como fazer upload de arquivos de áudio usando a API File e gerar saídas de texto a partir de entradas de áudio. Para saber mais, consulte os seguintes recursos:
- Estratégias de solicitação de arquivo: a API Gemini oferece suporte a solicitações com dados de texto, imagem, áudio e vídeo, também conhecidas como solicitações multimodais.
- Instruções do sistema: as instruções do sistema permitem orientar o comportamento do modelo com base nas suas necessidades e casos de uso específicos.
- Orientações de segurança: às vezes, os modelos de IA generativa produzem resultados inesperados, como respostas imprecisas, parciais ou ofensivas. O pós-processamento e a avaliação humana são essenciais para limitar o risco de danos causados por essas saídas.