Gemini può rispondere ai prompt relativi all'audio. Ad esempio, Gemini può:
- Descrivi, riassumi o rispondi a domande sui contenuti audio.
- Fornire una trascrizione dell'audio.
- Fornisci risposte o una trascrizione su una parte specifica dell'audio.
Questa guida illustra diversi modi per:
- Trasmettere l'audio a un modello Gemini.
- Chiedi al modello Gemini informazioni sull'audio.
Formati audio supportati
Gemini supporta i seguenti tipi di formati audio MIME:
- WAV: audio/wav
- MP3: audio/mp3
- AIFF - audio/aiff
- AAC: audio/aac
- OGG Vorbis - audio/ogg
- FLAC: audio/flac
Dettagli tecnici sull'audio
Gemini impone le seguenti regole all'audio:
- Gemini rappresenta ogni secondo di audio come 25 token; ad esempio un minuto di audio è rappresentato da 1500 token.
- Gemini può dedurre solo risposte al parlato in lingua inglese.
- Gemini può "comprendere" componenti non vocali, come il canto degli uccelli o le sirene.
- La durata massima supportata dei dati audio in un singolo prompt è 9,5 ore. Gemini non limita il numero di file audio in un singolo prompt; ma la lunghezza totale combinata di tutti i file audio in un singolo prompt non può superare 9,5 ore.
- Gemini sottocampiona i file audio a una risoluzione dati di 16 Kbps.
- Se la sorgente audio contiene più canali, Gemini li combina. a un singolo canale.