Requête avec des fichiers multimédias


Afficher sur ai.google.dev Exécuter dans Google Colab Consulter le code source sur GitHub

L'API Gemini accepte les requêtes comportant des données textuelles, illustrées, audio et vidéo, également appelées requêtes multimodales, ce qui signifie que vous pouvez inclure ces types de fichiers multimédias dans vos requêtes. Pour les petits fichiers, vous pouvez pointer le modèle Gemini directement vers un fichier local lorsque vous envoyez une requête. Importez des fichiers plus volumineux avec l'API File avant de les inclure dans les requêtes.

L'API File vous permet de stocker jusqu'à 20 Go de fichiers par projet, la taille de chaque fichier ne dépassant pas 2 Go. Les fichiers sont stockés pendant 48 heures. Vous pouvez y accéder avec votre clé API pour être générés pendant cette période et ne peuvent pas être téléchargés à partir de l'API. L'API Files est disponible sans frais dans toutes les régions où l'API Gemini est disponible.

L'API File gère les entrées qui peuvent être utilisées pour générer du contenu avec model.generateContent ou model.streamGenerateContent. Pour en savoir plus sur les formats de fichiers valides (types MIME) et les modèles compatibles, consultez la page Formats de fichiers compatibles.

Ce guide explique comment utiliser l'API File pour importer des fichiers multimédias et les inclure dans un appel GenerateContent à l'API Gemini. Pour en savoir plus, consultez les exemples de code.

Formats de fichiers acceptés

Les modèles Gemini acceptent les requêtes comportant plusieurs formats de fichiers. Cette section explique les considérations liées à l'utilisation de formats multimédias généraux pour les requêtes, en particulier les fichiers image, audio, vidéo et texte brut. Vous ne pouvez utiliser des fichiers multimédias que pour les requêtes avec des versions de modèle spécifiques, comme indiqué dans le tableau suivant.

Modèle Images Audio Vidéo Texte brut
Gemini 1.5 Pro (versions 008 et ultérieures) ✔ (3 600 fichiers image au maximum)

Formats illustrés

Vous pouvez utiliser des données d'image pour envoyer des requêtes avec les modèles Gemini 1.5. Lorsque vous utilisez des images pour des requêtes, elles sont soumises aux limites et exigences suivantes:

  • Les images doivent appartenir à l'un des types MIME de données d'image suivants :
    • PNG : image/png
    • JPEG : image/jpeg
    • WEBP : Image/webp
    • HEIC : image/heic
    • HEIF : image/heif
  • 3 600 images maximum pour les modèles Gemini 1.5.
  • Aucune limite spécifique au nombre de pixels d'une image. Toutefois, les images plus grandes sont réduites pour s'adapter à une résolution maximale de 3 072 x 3 072, tout en conservant leur format d'origine.

Formats audio

Vous pouvez utiliser des données audio pour envoyer des requêtes avec les modèles Gemini 1.5. Lorsque vous utilisez du contenu audio pour les requêtes, ils sont soumis aux limites et exigences suivantes:

  • Les données audio sont compatibles avec les types MIME courants suivants :
    • WAV – audio/wav
    • MP3 (audio/mp3)
    • AIFF : audio/aiff
    • AAC : audio/aac
    • OGG Vorbis – audio/ogg
    • FLAC (audio/flac)
  • La durée maximale autorisée pour les données audio dans une seule requête est de 9,5 heures.
  • Les fichiers audio sont rééchantillonnés à une résolution de données de 16 kbit/s, et plusieurs canaux audio sont combinés en un seul canal.
  • Il n'y a pas de limite spécifique au nombre de fichiers audio dans une seule requête.Toutefois, la durée totale combinée de tous les fichiers audio d'une même requête ne peut pas dépasser 9,5 heures.

Formats vidéo

Vous pouvez utiliser des données vidéo pour envoyer des requêtes avec les modèles Gemini 1.5.

  • Les données vidéo sont compatibles avec les types MIME courants des formats vidéo suivants:

    • video/mp4
    • video/mpeg
    • vidéo/mov
    • vidéo/avi
    • video/x-flv
    • vidéo/mpg
    • vidéo/webm
    • Vidéo/WMV
    • vidéo/3gpp
  • Le service de l'API File échantillonne des vidéos dans des images avec une fréquence d'images de 1 image par seconde (FPS) et peut être modifié afin de fournir la meilleure qualité d'inférence. Les images individuelles occupent 258 jetons, quelles que soient la résolution et la qualité.

Formats en texte brut

L'API File permet d'importer des fichiers en texte brut avec les types MIME suivants:

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • texte/x-typescript
  • application/x-typescript
  • texte/csv
  • texte/Markdown
  • text/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • application/rtf
  • texte/rtf

Pour les fichiers en texte brut dont le type MIME ne figure pas dans la liste, vous pouvez essayer de spécifier manuellement l'un des types MIME ci-dessus.