Gemini può rispondere a prompt relativi all'audio. Ad esempio, Gemini può:
- Descrivere, riepilogare o rispondere a domande sui contenuti audio.
- Fornisci una trascrizione dell'audio.
- Fornire risposte o una trascrizione di un segmento specifico dell'audio.
Questa guida illustra diversi modi per interagire con file audio e contenuti audio utilizzando l'API Gemini.
Formati audio supportati
Gemini supporta i seguenti tipi MIME di formato audio:
- WAV -
audio/wav
- MP3 -
audio/mp3
- AIFF -
audio/aiff
- AAC -
audio/aac
- OGG Vorbis -
audio/ogg
- FLAC -
audio/flac
Dettagli tecnici sull'audio
Gemini impone le seguenti regole all'audio:
- Gemini rappresenta ogni secondo di audio con 25 token; ad esempio, un minuto di audio è rappresentato da 1500 token.
- Gemini può dedurre risposte solo al parlato in inglese.
- Gemini può "comprendere" componenti non vocali, come il canto degli uccelli o le sirene.
- La durata massima supportata dei dati audio in un singolo prompt è di 9,5 ore. Gemini non limita il numero di file audio in un singolo prompt.Tuttavia, la durata combinata totale di tutti i file audio in un singolo prompt non può superare le 9 ore e mezza.
- Gemini esegue il downsampling dei file audio a una risoluzione dei dati di 16 Kbps.
- Se l'origine audio contiene più canali, Gemini li combina in un unico canale.
Passaggi successivi
Questa guida mostra come caricare file audio utilizzando l'API File e come generare output di testo da input audio. Per saperne di più, consulta le seguenti risorse:
- Strategie di prompt dei file: l'API Gemini supporta i prompt con dati di testo, immagini, audio e video, noti anche come prompt multimodali.
- Istruzioni di sistema: le istruzioni di sistema ti consentono di indirizzare il comportamento del modello in base alle tue esigenze e ai tuoi casi d'uso specifici.
- Indicazioni per la sicurezza: a volte i modelli di IA generativa producono output inaspettati, ad esempio imprecisi, biassati o offensivi. Il post-trattamento e la valutazione umana sono essenziali per limitare il rischio di danni derivanti da questi output.