Die Gemini API unterstützt die PDF-Eingabe, einschließlich langer Dokumente (bis zu 3.600 Seiten). Gemini-Modelle verarbeiten PDFs mit nativer Bilderkennung und können daher sowohl Text als auch Bildinhalte in Dokumenten verstehen. Dank der nativen Unterstützung von PDF-Vision können Gemini-Modelle Folgendes tun:
- Diagramme, Grafiken und Tabellen in Dokumenten analysieren
- Informationen in strukturierte Ausgabeformate extrahieren
- Fragen zu visuellem und Textinhalt in Dokumenten beantworten
- Dokumente zusammenfassen
- Transkribieren von Dokumentinhalten (z.B. in HTML) unter Beibehaltung von Layout und Formatierung zur Verwendung in nachfolgenden Anwendungen
In dieser Anleitung werden einige Möglichkeiten zur Verarbeitung von PDF-Dokumenten mit der Gemini API veranschaulicht.
Nächste Schritte
Weitere Informationen finden Sie in den folgenden Ressourcen:
- Strategien für Prompts aus Dateien: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
- Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells basierend auf Ihren spezifischen Anforderungen und Anwendungsfällen steuern.