Gemini 2.5 Pro Experimental, notre modèle le plus avancé, est désormais disponible. En savoir plus

Cette page a été traduite par l'API Cloud Translation.

Explorez les fonctionnalités visuelles de l'API Gemini

Sur cette page
Étape suivante

Les modèles Gemini sont capables de traiter des images et des vidéos, ce qui permet de répondre à de nombreux cas d'utilisation de développeurs de pointe qui auraient traditionnellement nécessité des modèles spécifiques au domaine. Voici quelques-unes des fonctionnalités de vision de Gemini:

Ajouter des légendes et répondre à des questions sur des images
Transcrire et raisonner sur des PDF, y compris jusqu'à deux millions de jetons
décrire, segmenter et extraire des informations à partir de vidéos de 90 minutes maximum ;
Détecter des objets dans une image et renvoyer leurs coordonnées de cadre de délimitation

Gemini a été conçu dès le départ pour être multimodal, et nous continuons de repousser les limites du possible.

Avant de commencer

Avant d'appeler l'API Gemini, assurez-vous d'avoir installé le SDK de votre choix et d'avoir configuré une clé API Gemini prête à l'emploi.

Étape suivante

Ce guide explique comment importer des fichiers image et vidéo à l'aide de l'API File, puis générer des sorties textuelles à partir d'entrées image et vidéo. Pour en savoir plus, consultez les ressources suivantes:

Stratégies d'invite de fichier: l'API Gemini prend en charge les invites avec des données textuelles, des images, des données audio et des données vidéo, également appelées invites multimodales.
Instructions système: les instructions système vous permettent d'orienter le comportement du modèle en fonction de vos besoins et de vos cas d'utilisation spécifiques.
Conseils de sécurité: Les modèles d'IA générative produisent parfois des résultats inattendus, comme des résultats inexacts, biaisés ou choquants. Le post-traitement et l'évaluation humaine sont essentiels pour limiter le risque de préjudices liés à ces sorties.