Découvrez les capacités de traitement de documents avec l'API Gemini

L'API Gemini accepte l'entrée au format PDF, y compris les documents volumineux (jusqu'à 3 600 pages). Les modèles Gemini traitent les PDF avec une vision native et sont donc capables de comprendre à la fois le contenu textuel et les images dans les documents. Grâce à la compatibilité native avec la vision PDF, les modèles Gemini peuvent:

  • Analysez les diagrammes, les graphiques et les tableaux dans les documents.
  • Extrayez des informations dans des formats de sortie structurés.
  • Répondre à des questions sur le contenu visuel et textuel des documents
  • Résumer des documents
  • Transcrire le contenu d'un document (par exemple, au format HTML) en préservant les mises en page et la mise en forme, pour l'utiliser dans les applications en aval (par exemple, dans les pipelines RAG).

Ce tutoriel présente quelques façons d'utiliser l'API Gemini avec des documents PDF. Toutes les sorties sont textuelles uniquement.

Étape suivante

Ce guide explique comment utiliser generateContent et générer des sorties textuelles à partir de documents traités. Pour en savoir plus, consultez les ressources suivantes:

  • Stratégies d'invite de fichier: l'API Gemini prend en charge les invites avec des données textuelles, des images, des données audio et des données vidéo, également appelées invites multimodales.
  • Instructions système: les instructions système vous permettent d'orienter le comportement du modèle en fonction de vos besoins et de vos cas d'utilisation spécifiques.
  • Conseils de sécurité: Les modèles d'IA générative produisent parfois des résultats inattendus, comme des résultats inexacts, biaisés ou choquants. Le post-traitement et l'évaluation humaine sont essentiels pour limiter le risque de préjudices liés à ces sorties.