Requête avec des fichiers multimédias


Voir sur ai.google.dev Exécuter dans Google Colab Afficher la source sur GitHub

L'API Gemini est compatible avec les requêtes contenant des données de texte, d'image, audio et vidéo, également appelées requêtes multimodales, ce qui signifie que vous pouvez inclure ces types de fichiers multimédias dans vos requêtes. Pour les petits fichiers, vous pouvez faire pointer le modèle Gemini directement vers un fichier local lorsque vous fournissez une requête. Importez des fichiers plus volumineux avec l'API File avant de les inclure dans les invites.

L'API File vous permet de stocker jusqu'à 20 Go de fichiers par projet, la taille de chaque fichier ne dépassant pas 2 Go. Les fichiers sont stockés pendant 48 heures. Pendant cette période, ils sont accessibles avec votre clé API pour être générés. Ils ne peuvent pas être téléchargés depuis l'API. L'API Files est disponible sans frais dans toutes les régions où l'API Gemini est disponible.

L'API File gère les entrées pouvant être utilisées pour générer du contenu avec model.generateContent ou model.streamGenerateContent. Pour en savoir plus sur les formats de fichiers valides (types MIME) et les modèles compatibles, consultez la section Formats de fichiers acceptés.

Ce guide explique comment utiliser l'API File pour importer des fichiers multimédias et les inclure dans un appel GenerateContent à l'API Gemini. Pour en savoir plus, consultez les exemples de code.

Formats de fichiers acceptés

Les modèles Gemini sont compatibles avec les requêtes avec plusieurs formats de fichiers. Cette section explique les considérations relatives à l'utilisation de formats multimédias généraux pour les requêtes, en particulier les fichiers image, audio, vidéo et en texte brut. Vous pouvez utiliser des fichiers multimédias pour envoyer des requêtes uniquement avec des versions de modèle spécifiques, comme indiqué dans le tableau suivant.

Modèle Images Audio Vidéo Texte brut
Gemini 1.5 Pro (versions 008 et ultérieures) ✔ (3 600 fichiers image max.)
Gemini Pro Vision ✔ (16 fichiers image maximum)

Formats illustrés

Vous pouvez utiliser des données d'image pour effectuer des requêtes avec un modèle Gemini 1.5 ou Genmini 1.0 Pro Vision. Lorsque vous utilisez des images pour les requêtes, elles sont soumises aux limites et exigences suivantes:

  • Les images doivent appartenir à l'un des types MIME de données d'image suivants :
    • PNG : image/png
    • JPEG : image/jpeg
    • WEBP : Image/webp
    • HEIC : image/heic
    • HEIF : image/heif
  • 16 images individuelles au maximum pour le modèle Gemini 1.0 Pro Vision et les images à 3 600 pour le modèle Gemini 1.5.
  • Aucune limite spécifique pour le nombre de pixels dans une image. Toutefois, les images plus grandes sont réduites pour s'adapter à une résolution maximale de 3 072 x 3 072, tout en conservant leurs proportions d'origine.

Formats audio

Vous pouvez utiliser des données audio pour les requêtes avec les modèles Gemini 1.5. Lorsque vous utilisez du contenu audio pour les requêtes, celui-ci est soumis aux limites et exigences suivantes:

  • Les données audio sont compatibles avec les types MIME de formats audio courants suivants :
    • WAV : audio/wav
    • MP3 : audio/mp3
    • AIFF : audio/aiff
    • AAC – Audio/Aac
    • OGG Vorbis – audio/ogg
    • FLAC – Audio/flac
  • La durée maximale autorisée de données audio dans une requête est de 9,5 heures.
  • Les fichiers audio sont rééchantillonnés jusqu'à une résolution de données de 16 Kbit/s, et plusieurs canaux audio sont combinés en un seul canal.
  • Il n'y a pas de limite spécifique au nombre de fichiers audio dans une requête.Toutefois, la durée totale combinée de tous les fichiers audio dans une seule requête ne peut pas dépasser 9,5 heures.

Formats vidéo

Vous pouvez utiliser des données vidéo pour les requêtes avec les modèles Gemini 1.5.

  • Les données vidéo sont compatibles avec les types MIME courants suivants:

    • video/mp4
    • video/mpeg
    • vidéo/vidéo
    • vidéo/avi
    • video/x-flv
    • vidéo/mpg
    • vidéo/webm
    • vidéo/wmv
    • vidéo/3gpp
  • Le service File API échantillonne des vidéos dans des images à une fréquence d'image par seconde (FPS) et est susceptible d'être modifié afin de fournir une qualité d'inférence optimale. Les images individuelles utilisent jusqu'à 258 jetons, quelles que soient leur résolution et leur qualité.

Formats de texte brut

L'API File permet d'importer des fichiers au format texte brut avec les types MIME suivants:

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • texte/script-x-type
  • application/script-x-type
  • texte/csv
  • texte/markdown
  • texte/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • application/rtf
  • texte/rtf

Pour les fichiers en texte brut dont le type MIME ne figure pas dans la liste, vous pouvez essayer de spécifier manuellement l'un des types MIME ci-dessus.