Explorez les fonctionnalités visuelles de l'API Gemini

<ph type="x-smartling-placeholder"></ph>

Afficher sur ai.google.dev Exécuter dans Google Colab Consulter le code source sur GitHub

L'API Gemini peut exécuter des inférences sur les images et les vidéos qui lui sont transmises. Après réussite une image, une série d'images ou une vidéo, Gemini peut:

  • Décrivez ou répondez aux questions sur le contenu
  • Résumer le contenu
  • Extrapoler à partir du contenu

Ce tutoriel présente plusieurs façons d'envoyer une requête à l'API Gemini avec des images et des entrées vidéo. Tous les résultats ne contiennent que du texte.

Étape suivante

Ce guide vous explique comment utiliser generateContent et pour générer des sorties textuelles à partir d'entrées d'image et de vidéo. Pour en savoir plus, consultez les ressources suivantes:

  • Invite avec des fichiers multimédias: l'option L'API Gemini prend en charge les requêtes contenant du texte, des images, de l'audio et de la vidéo, appelées requêtes multimodales.
  • Instructions relatives au système: Système vous permettent de contrôler le comportement du modèle en fonction besoins et cas d'utilisation.
  • Conseils de sécurité: parfois, l'IA générative les modèles produisent des résultats inattendus, tels que des résultats inexacts, biaisées ou choquantes. Le post-traitement et l'évaluation humaine sont essentiels pour limiter le risque que ces sorties soient néfastes.