Explorer les fonctionnalités audio de l'API Gemini

Gemini peut répondre aux requêtes concernant l'audio. Par exemple, Gemini peut:

  • décrire, résumer ou répondre à des questions sur un contenu audio ;
  • Fournissez une transcription de l'audio.
  • Fournir des réponses ou une transcription sur un segment spécifique de l'audio

Ce guide présente différentes façons d'interagir avec des fichiers audio et des contenus audio à l'aide de l'API Gemini.

Formats audio compatibles

Gemini est compatible avec les types MIME de formats audio suivants:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF : audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

Détails techniques sur l'audio

Gemini impose les règles suivantes sur l'audio:

  • Gemini représente chaque seconde d'audio par 25 jetons. Par exemple, une minute d'audio est représentée par 1 500 jetons.
  • Gemini ne peut inférer des réponses qu'à partir de la parole en anglais.
  • Gemini peut "comprendre" des composants non vocaux, comme le chant des oiseaux ou les sirènes.
  • La durée maximale acceptée pour les données audio dans une seule invite est de 9,5 heures. Gemini ne limite pas le nombre de fichiers audio dans une seule requête.Toutefois, la durée totale combinée de tous les fichiers audio d'une seule requête ne doit pas dépasser 9,5 heures.
  • Gemini réduit la résolution des fichiers audio à 16 kbit/s.
  • Si la source audio contient plusieurs canaux, Gemini les combine en un seul canal.

Étape suivante

Ce guide explique comment importer des fichiers audio à l'aide de l'API File, puis générer des sorties textuelles à partir d'entrées audio. Pour en savoir plus, consultez les ressources suivantes :

  • Stratégies d'invite de fichier: l'API Gemini prend en charge les invites avec des données textuelles, des images, des données audio et des données vidéo, également appelées invites multimodales.
  • Instructions système: les instructions système vous permettent d'orienter le comportement du modèle en fonction de vos besoins et de vos cas d'utilisation spécifiques.
  • Conseils de sécurité: Les modèles d'IA générative produisent parfois des résultats inattendus, comme des résultats inexacts, biaisés ou choquants. Le post-traitement et l'évaluation humaine sont essentiels pour limiter le risque de préjudices liés à ces sorties.