Gemini 2.5 Pro Experimental, unser fortschrittlichstes Modell, ist jetzt verfügbar. Weitere Informationen

Diese Seite wurde von der Cloud Translation API übersetzt.

Funktionen zur Dokumentverarbeitung mit der Gemini API kennenlernen

Auf dieser Seite
Nächste Schritte

Die Gemini API unterstützt die PDF-Eingabe, einschließlich langer Dokumente (bis zu 3.600 Seiten). Gemini-Modelle verarbeiten PDFs mit nativer Bilderkennung und können daher sowohl Text als auch Bildinhalte in Dokumenten verstehen. Dank der nativen Unterstützung von PDF-Vision können Gemini-Modelle Folgendes tun:

Diagramme, Grafiken und Tabellen in Dokumenten analysieren
Informationen in strukturierte Ausgabeformate extrahieren.
Beantworten Sie Fragen zu visuellen und Textinhalten in Dokumenten.
Dokumente zusammenfassen
Transkribieren von Dokumentinhalten (z. B. in HTML) unter Beibehaltung von Layout und Formatierung für die Verwendung in Downstream-Anwendungen (z. B. in RAG-Pipelines).

In dieser Anleitung werden einige Möglichkeiten zur Verwendung der Gemini API mit PDF-Dokumenten veranschaulicht. Die gesamte Ausgabe besteht aus Text.

Nächste Schritte

In diesem Leitfaden erfahren Sie, wie Sie generateContent verwenden und Textausgaben aus verarbeiteten Dokumenten generieren. Weitere Informationen finden Sie in den folgenden Ressourcen:

Strategien für Prompts aus Dateien: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells entsprechend Ihren spezifischen Anforderungen und Anwendungsfällen steuern.
Sicherheitshinweise: Manchmal liefern Modelle für generative KI unerwartete Ergebnisse, z. B. ungenaue, voreingenommene oder anstößige Ergebnisse. Eine Nachbearbeitung und eine menschliche Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ausgaben zu begrenzen.