Vision-Funktionen mit der Gemini API entdecken

Auf ai.google.dev ansehen In Google Colab ausführen Quelle auf GitHub ansehen

Die Gemini API kann Inferenzen auf Bilder und Videos ausführen, die an sie übergeben werden. Wenn ein Bild, eine Reihe von Bildern oder ein Video übergeben wird, kann Gemini Folgendes tun:

  • Fragen zum Inhalt beschreiben oder beantworten
  • Inhalt zusammenfassen
  • Extrapolation aus dem Inhalt

In diesem Tutorial werden einige Möglichkeiten gezeigt, wie Sie die Gemini API mit Bildern und Videoeingaben auffordern können. Die Ausgabe erfolgt ausschließlich in Textform.

Nächste Schritte

In diesem Leitfaden erfahren Sie, wie Sie generateContent verwenden und Textausgaben aus Bild- und Videoeingaben generieren. Weitere Informationen finden Sie in den folgenden Ressourcen:

  • Prompts mit Mediendateien: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, die auch als multimodale Prompts bezeichnet werden.
  • Systemanweisungen: Mit der Systemanweisung können Sie das Verhalten des Modells an Ihre spezifischen Anforderungen und Anwendungsfälle anpassen.
  • Sicherheitshinweise: Manchmal erzeugen Generative-AI-Modelle unerwartete Ausgaben, z. B. ungenaue, verzerrte oder anstößige Ausgaben. Die Nachbearbeitung und manuelle Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ausgaben zu begrenzen.