Compréhension des documents

L'API Gemini accepte l'entrée au format PDF, y compris les documents volumineux (jusqu'à 3 600 pages). Les modèles Gemini traitent les PDF avec une vision native et sont donc capables de comprendre à la fois le contenu textuel et les images dans les documents. Grâce à la prise en charge native de la vision PDF, les modèles Gemini peuvent:

  • Analyser des diagrammes, des graphiques et des tableaux dans des documents
  • Extraire des informations dans des formats de sortie structurés
  • Répondre à des questions sur le contenu visuel et textuel de documents
  • Résumer des documents
  • Transcrire le contenu d'un document (par exemple, au format HTML) en conservant les mises en page et la mise en forme, pour l'utiliser dans des applications en aval

Ce tutoriel présente quelques façons d'utiliser l'API Gemini pour traiter des documents PDF.

Étape suivante

Pour en savoir plus, consultez les ressources suivantes :

  • Stratégies d'invite de fichier: l'API Gemini prend en charge les invites avec des données textuelles, des images, des données audio et des données vidéo, également appelées invites multimodales.
  • Instructions système: les instructions système vous permettent d'orienter le comportement du modèle en fonction de vos besoins et de vos cas d'utilisation spécifiques.