Compréhension des documents

L'API Gemini accepte les entrées PDF, y compris les longs documents (jusqu'à 1 000 pages). Les modèles Gemini traitent les PDF avec la vision native. Ils sont donc capables de comprendre le contenu textuel et les images des documents. Grâce à la prise en charge native de la vision PDF, les modèles Gemini peuvent :

  • Analyser des diagrammes, des graphiques et des tableaux dans des documents
  • Extraire des informations dans des formats de sortie structurés
  • Répondre à des questions sur le contenu visuel et textuel des documents
  • Résumer des documents
  • Transcrire le contenu d'un document (par exemple, au format HTML) en conservant la mise en page et la mise en forme, pour l'utiliser dans des applications en aval

Ce tutoriel montre quelques façons d'utiliser l'API Gemini pour traiter des documents PDF.

Détails techniques

Gemini accepte un maximum de 1 000 pages de document. Les pages du document doivent correspondre à l'un des types MIME de données textuelles suivants :

  • PDF - application/pdf
  • JavaScript : application/x-javascript, text/javascript
  • Python – application/x-python, text/x-python
  • TXT – text/plain
  • HTML : text/html
  • CSS : text/css
  • Minoration : text/md
  • CSV - text/csv
  • XML – text/xml
  • RTF - text/rtf

Chaque page de document équivaut à 258 jetons.

Bien qu'il n'y ait pas de limite spécifique au nombre de pixels dans un document, à l'exception de la fenêtre de contexte du modèle, les pages plus grandes sont réduites à une résolution maximale de 3 072 x 3 072 tout en conservant leur format d'origine, tandis que les pages plus petites sont agrandies à 768 x 768 pixels. Il n'y a pas de réduction des coûts pour les pages de plus petite taille, à l'exception de la bande passante, ni d'amélioration des performances pour les pages de plus haute résolution.

Pour des résultats optimaux, procédez comme suit :

  • Faites pivoter les pages dans la bonne orientation avant de les importer.
  • Évitez les pages floues.
  • Si vous utilisez une seule page, placez la requête textuelle après la page.

Étape suivante

Pour en savoir plus, consultez les ressources suivantes :

  • Stratégies d'invite de fichier : l'API Gemini est compatible avec les invites utilisant des données texte, image, audio et vidéo, également appelées invites multimodales.
  • Instructions système : elles vous permettent d'orienter le comportement du modèle en fonction de vos besoins et de vos cas d'utilisation spécifiques.