Die Gemini API unterstützt die PDF-Eingabe, einschließlich langer Dokumente (bis zu 3.600 Seiten). Gemini-Modelle verarbeiten PDFs mit nativer Bilderkennung und können daher sowohl Text als auch Bildinhalte in Dokumenten verstehen. Dank der nativen Unterstützung von PDF-Vision können Gemini-Modelle Folgendes tun:
- Diagramme, Grafiken und Tabellen in Dokumenten analysieren
- Informationen in strukturierte Ausgabeformate extrahieren.
- Beantworten Sie Fragen zu visuellen und Textinhalten in Dokumenten.
- Dokumente zusammenfassen
- Transkribieren von Dokumentinhalten (z. B. in HTML) unter Beibehaltung von Layout und Formatierung für die Verwendung in Downstream-Anwendungen (z. B. in RAG-Pipelines).
In dieser Anleitung werden einige Möglichkeiten zur Verwendung der Gemini API mit PDF-Dokumenten veranschaulicht. Die gesamte Ausgabe besteht aus Text.
Nächste Schritte
In diesem Leitfaden erfahren Sie, wie Sie generateContent
verwenden und Textausgaben aus verarbeiteten Dokumenten generieren. Weitere Informationen finden Sie in den folgenden Ressourcen:
- Strategien für Prompts aus Dateien: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
- Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells entsprechend Ihren spezifischen Anforderungen und Anwendungsfällen steuern.
- Sicherheitshinweise: Manchmal liefern Modelle für generative KI unerwartete Ergebnisse, z. B. ungenaue, voreingenommene oder anstößige Ergebnisse. Eine Nachbearbeitung und eine menschliche Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ausgaben zu begrenzen.