Explorer les fonctionnalités audio de l'API Gemini

Gemini peut répondre aux requêtes concernant l'audio. Par exemple, Gemini peut:

  • Décrivez le contenu audio, résumez-le ou répondez à des questions le concernant.
  • Fournissez une transcription de l'audio.
  • Fournissez des réponses ou une transcription concernant un segment spécifique de l'audio.

Ce guide présente différentes façons de:

  • Transmettre des données audio à un modèle Gemini.
  • Envoyez une requête au modèle Gemini concernant l'audio.

Formats audio compatibles

Gemini est compatible avec les types MIME du format audio suivants:

  • WAV – audio/wav
  • MP3 (audio/mp3)
  • AIFF : audio/aiff
  • AAC : audio/aac
  • OGG Vorbis – audio/ogg
  • FLAC (audio/flac)

Détails techniques concernant l'audio

Gemini impose les règles suivantes concernant l'audio:

  • Gemini représente chaque seconde de contenu audio sous forme de 25 jetons. Par exemple, une minute d'audio représente 1 500 jetons.
  • Gemini ne peut déduire que les réponses prononcées en anglais.
  • Gemini peut "comprendre" les composants autres que la parole, comme le chant d'oiseau ou les sirènes.
  • La durée maximale autorisée pour les données audio dans une seule requête est de 9,5 heures. Gemini ne limite pas le nombre de fichiers audio dans une même requête.Toutefois, la longueur totale combinée de tous les fichiers audio d'une même requête ne peut pas dépasser 9,5 heures.
  • Gemini sous-échantillonne les fichiers audio à une résolution de données de 16 kbit/s.
  • Si la source audio contient plusieurs canaux, Gemini les combine en un seul canal.