Vision-Funktionen mit der Gemini API entdecken

Auf ai.google.dev ansehen In Google Colab ausführen Quelle auf GitHub ansehen

Die Gemini API kann Inferenzen auf Bilder und Videos ausführen, die an sie übergeben werden. Wenn bestanden eine Reihe von Bildern oder Videos enthält, kann Gemini Folgendes tun:

  • Fragen zum Inhalt beschreiben oder beantworten
  • Inhalt zusammenfassen
  • Extrapolation aus dem Inhalt

In diesem Tutorial werden einige Möglichkeiten gezeigt, wie Sie die Gemini API mit Bild- und Videoeingabe. Die Ausgabe erfolgt ausschließlich in Textform.

Nächste Schritte

In diesem Leitfaden erfahren Sie, wie Sie generateContent und zum Generieren von Textausgaben aus Bild- und Videoeingaben. Weitere Informationen finden Sie in den folgenden Ressourcen:

  • Prompts mit Mediendateien: Die Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten sowie als multimodale Prompts.
  • Systemanleitung: System können Sie das Verhalten des Modells auf Ihre spezifischen Anforderungen und Anwendungsfälle.
  • Sicherheitshinweise: Manchmal mit generativer KI dass Modelle unerwartete Ausgaben erzeugen, z. B. ungenaue, voreingenommen oder anstößig ist. Die Nachbearbeitung und menschliche Bewertung sind das Risiko von Schäden durch solche Ausgaben zu begrenzen.