Funktionen zur Dokumentverarbeitung mit der Gemini API kennenlernen

Die Gemini API unterstützt die PDF-Eingabe, einschließlich langer Dokumente (bis zu 3.600 Seiten). Gemini-Modelle verarbeiten PDFs mit nativer Bilderkennung und können daher sowohl Text als auch Bildinhalte in Dokumenten verstehen. Dank der nativen Unterstützung für die PDF-Datenerkennung können Gemini-Modelle Folgendes tun:

  • Diagramme, Grafiken und Tabellen in Dokumenten analysieren
  • Informationen in strukturierte Ausgabeformate extrahieren.
  • Beantworten Sie Fragen zu visuellen und Textinhalten in Dokumenten.
  • Dokumente zusammenfassen
  • Dokumentinhalte (z. B. in HTML) mit Beibehaltung von Layout und Formatierung transkribieren, um sie in nachfolgenden Anwendungen (z. B. in RAG-Pipelines) zu verwenden.

In dieser Anleitung werden einige Möglichkeiten zur Verwendung der Gemini API mit PDF-Dokumenten veranschaulicht. Die gesamte Ausgabe besteht aus Text.

Nächste Schritte

In dieser Anleitung wird gezeigt, wie Sie generateContent verwenden und Textausgaben aus verarbeiteten Dokumenten generieren. Weitere Informationen finden Sie in den folgenden Ressourcen:

  • Strategien für Prompts aus Dateien: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
  • Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells entsprechend Ihren spezifischen Anforderungen und Anwendungsfällen steuern.
  • Sicherheitshinweise: Manchmal liefern generative KI-Modelle unerwartete Ausgaben, z. B. ungenaue, voreingenommene oder anstößige Ausgaben. Eine Nachbearbeitung und eine menschliche Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ausgaben zu begrenzen.