Afficher sur ai.google.dev | Exécuter dans Google Colab | Consulter le code source sur GitHub |
L'API Gemini peut exécuter des inférences sur les images et les vidéos qui lui sont transmises. Lorsqu'il transmet une image, une série d'images ou une vidéo, Gemini peut:
- Décrivez ou répondez aux questions sur le contenu
- Résumer le contenu
- Extrapoler à partir du contenu
Ce tutoriel présente plusieurs façons d'envoyer des requêtes à l'API Gemini avec des images et des entrées vidéo. Tous les résultats ne contiennent que du texte.
Étapes suivantes
Ce guide explique comment utiliser generateContent
et générer des sorties de texte à partir des entrées d'image et de vidéo. Pour en savoir plus, consultez les ressources suivantes:
- Requêtes avec des fichiers multimédias: l'API Gemini accepte les requêtes comportant des données textuelles, illustrées, audio et vidéo. On parle également de requête multimodale.
- Instructions système: ces instructions vous permettent de contrôler le comportement du modèle en fonction de vos besoins spécifiques et de vos cas d'utilisation.
- Conseils de sécurité: Parfois, les modèles d'IA générative produisent des résultats inattendus, tels que des résultats inexacts, biaisés ou choquants. Le post-traitement et l'évaluation humaine sont essentiels pour limiter le risque de préjudice généré par ces résultats.