Vision-Funktionen mit der Gemini API entdecken

Die Gemini API kann Bilder und Videos verarbeiten und bietet so eine Vielzahl spannender Anwendungsfälle für Entwickler. Zu den Funktionen von Gemini gehören:

  • Bildunterschriften hinzufügen und Fragen zu Bildern beantworten
  • Transkribieren und Argumente für PDFs finden, einschließlich langer Dokumente mit einem Kontextfenster von bis zu 2 Millionen Tokens
  • Videos mit einer Länge von bis zu 90 Minuten beschreiben, segmentieren und Informationen daraus extrahieren, einschließlich visueller Frames und Audioinhalte
  • Objekte in einem Bild erkennen und Begrenzungsrahmenkoordinaten für sie zurückgeben

In dieser Anleitung werden einige Möglichkeiten zum Senden von Bildern und Videoeingaben an die Gemini API gezeigt. Außerdem finden Sie Codebeispiele und Best Practices für Prompts mit multimodalen Vision-Funktionen. Die gesamte Ausgabe besteht aus Text.

Nächste Schritte

In diesem Leitfaden wird gezeigt, wie Sie Bild- und Videodateien mit der File API hochladen und dann Textausgaben aus Bild- und Videoinputs generieren. Weitere Informationen finden Sie in den folgenden Ressourcen:

  • Strategien für Prompts aus Dateien: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
  • Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells entsprechend Ihren spezifischen Anforderungen und Anwendungsfällen steuern.
  • Sicherheitshinweise: Manchmal liefern generative KI-Modelle unerwartete Ausgaben, z. B. ungenaue, voreingenommene oder anstößige Ausgaben. Eine Nachbearbeitung und eine menschliche Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ausgaben zu begrenzen.