Esplora le funzionalità audio con l'API Gemini

Gemini può rispondere a prompt relativi all'audio. Ad esempio, Gemini può:

  • Descrivere, riepilogare o rispondere a domande sui contenuti audio.
  • Fornisci una trascrizione dell'audio.
  • Fornire risposte o una trascrizione di un segmento specifico dell'audio.

Questa guida illustra diversi modi per interagire con file audio e contenuti audio utilizzando l'API Gemini.

Formati audio supportati

Gemini supporta i seguenti tipi MIME di formato audio:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

Dettagli tecnici sull'audio

Gemini impone le seguenti regole all'audio:

  • Gemini rappresenta ogni secondo di audio con 25 token; ad esempio, un minuto di audio è rappresentato da 1500 token.
  • Gemini può dedurre risposte solo al parlato in inglese.
  • Gemini può "comprendere" componenti non vocali, come il canto degli uccelli o le sirene.
  • La durata massima supportata dei dati audio in un singolo prompt è di 9,5 ore. Gemini non limita il numero di file audio in un singolo prompt.Tuttavia, la durata combinata totale di tutti i file audio in un singolo prompt non può superare le 9 ore e mezza.
  • Gemini esegue il downsampling dei file audio a una risoluzione dei dati di 16 Kbps.
  • Se l'origine audio contiene più canali, Gemini li combina in un unico canale.

Passaggi successivi

Questa guida mostra come caricare file audio utilizzando l'API File e come generare output di testo da input audio. Per saperne di più, consulta le seguenti risorse:

  • Strategie di prompt dei file: l'API Gemini supporta i prompt con dati di testo, immagini, audio e video, noti anche come prompt multimodali.
  • Istruzioni di sistema: le istruzioni di sistema ti consentono di indirizzare il comportamento del modello in base alle tue esigenze e ai tuoi casi d'uso specifici.
  • Indicazioni per la sicurezza: a volte i modelli di IA generativa producono output inaspettati, ad esempio imprecisi, biassati o offensivi. Il post-trattamento e la valutazione umana sono essenziali per limitare il rischio di danni derivanti da questi output.