Explorez les fonctionnalités visuelles de l'API Gemini

Afficher sur ai.google.dev Exécuter dans Google Colab Consulter le code source sur GitHub

L'API Gemini peut exécuter des inférences sur les images et les vidéos qui lui sont transmises. Lorsqu'il transmet une image, une série d'images ou une vidéo, Gemini peut:

  • Décrivez ou répondez aux questions sur le contenu
  • Résumer le contenu
  • Extrapoler à partir du contenu

Ce tutoriel présente plusieurs façons d'envoyer des requêtes à l'API Gemini avec des images et des entrées vidéo. Tous les résultats ne contiennent que du texte.

Étapes suivantes

Ce guide explique comment utiliser generateContent et générer des sorties de texte à partir des entrées d'image et de vidéo. Pour en savoir plus, consultez les ressources suivantes:

  • Requêtes avec des fichiers multimédias: l'API Gemini accepte les requêtes comportant des données textuelles, illustrées, audio et vidéo. On parle également de requête multimodale.
  • Instructions système: ces instructions vous permettent de contrôler le comportement du modèle en fonction de vos besoins spécifiques et de vos cas d'utilisation.
  • Conseils de sécurité: Parfois, les modèles d'IA générative produisent des résultats inattendus, tels que des résultats inexacts, biaisés ou choquants. Le post-traitement et l'évaluation humaine sont essentiels pour limiter le risque de préjudice généré par ces résultats.