Funktionen zur Dokumentverarbeitung mit der Gemini API kennenlernen

Die Gemini API kann übergebene PDF-Dokumente verarbeiten und Inferenzen darauf ausführen. Wenn eine PDF-Datei hochgeladen wird, kann die Gemini API Folgendes tun:

  • Fragen zum Inhalt beschreiben oder beantworten
  • Inhalte zusammenfassen
  • Extrapolieren aus den Inhalten

In dieser Anleitung werden einige Möglichkeiten gezeigt, wie Sie die Gemini API mit bereitgestellten PDF-Dokumenten aufrufen können. Die gesamte Ausgabe besteht aus Text.

Nächste Schritte

In dieser Anleitung wird gezeigt, wie Sie generateContent verwenden und Textausgaben aus verarbeiteten Dokumenten generieren. Weitere Informationen finden Sie in den folgenden Ressourcen:

  • Datei-Prompting-Strategien: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
  • Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells entsprechend Ihren spezifischen Anforderungen und Anwendungsfällen steuern.
  • Sicherheitshinweise: Manchmal liefern generative KI-Modelle unerwartete Ausgaben, z. B. ungenaue, voreingenommene oder anstößige Ausgaben. Die Nachbearbeitung und manuelle Bewertung sind wichtig, um das Risiko von Schäden durch solche Ausgaben zu begrenzen.