L'API Gemini est capable de traiter des images et des vidéos, ce qui permet aux développeurs de créer de nombreux cas d'utilisation passionnants. Voici quelques-unes des fonctionnalités de vision de Gemini:
- Ajouter des légendes et répondre à des questions sur des images
- Transcrire et raisonner sur des PDF, y compris des documents longs avec une fenêtre de contexte de 2 millions de jetons
- Décrire, segmenter et extraire des informations à partir de vidéos, y compris des images et de l'audio, jusqu'à 90 minutes de long
- Détecter des objets dans une image et renvoyer leurs coordonnées de cadre de délimitation
Ce tutoriel présente quelques façons d'inviter l'API Gemini avec des images et des entrées vidéo, fournit des exemples de code et décrit les bonnes pratiques d'incitation avec les fonctionnalités de vision multimodale. Toutes les sorties sont textuelles uniquement.
Étape suivante
Ce guide explique comment importer des fichiers image et vidéo à l'aide de l'API File, puis générer des sorties textuelles à partir d'entrées image et vidéo. Pour en savoir plus, consultez les ressources suivantes:
- Stratégies d'invite de fichier: l'API Gemini prend en charge les invites avec des données textuelles, des images, des données audio et des données vidéo, également appelées invites multimodales.
- Instructions système: les instructions système vous permettent d'orienter le comportement du modèle en fonction de vos besoins et de vos cas d'utilisation spécifiques.
- Conseils de sécurité: Les modèles d'IA générative produisent parfois des résultats inattendus, comme des résultats inexacts, biaisés ou choquants. Le post-traitement et l'évaluation humaine sont essentiels pour limiter le risque de préjudices liés à ces sorties.