Esplora le funzionalità audio con l'API Gemini

Gemini può rispondere ai prompt relativi all'audio. Ad esempio, Gemini può:

  • Descrivi, riassumi o rispondi a domande sui contenuti audio.
  • Fornire una trascrizione dell'audio.
  • Fornisci risposte o una trascrizione su una parte specifica dell'audio.

Questa guida illustra diversi modi per:

  • Trasmettere l'audio a un modello Gemini.
  • Chiedi al modello Gemini informazioni sull'audio.

Formati audio supportati

Gemini supporta i seguenti tipi di formati audio MIME:

  • WAV: audio/wav
  • MP3: audio/mp3
  • AIFF - audio/aiff
  • AAC: audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC: audio/flac

Dettagli tecnici sull'audio

Gemini impone le seguenti regole all'audio:

  • Gemini rappresenta ogni secondo di audio come 25 token; ad esempio, un minuto di audio è rappresentato da 1500 token.
  • Gemini può dedurre solo risposte al parlato in lingua inglese.
  • Gemini può "comprendere" i componenti non vocali, come il canto degli uccelli o le sirene.
  • La durata massima supportata dei dati audio in un singolo prompt è 9,5 ore. Gemini non limita il numero di file audio in un singolo prompt; tuttavia, la lunghezza totale combinata di tutti i file audio in un singolo prompt non può superare le 9,5 ore.
  • Gemini sottocampiona i file audio a una risoluzione dati di 16 Kbps.
  • Se la sorgente audio contiene più canali, Gemini li combina in un unico canale.