Poznaj możliwości w zakresie rozpoznawania treści dzięki interfejsowi Gemini API

Wyświetl na ai.google.dev Uruchom w Google Colab Wyświetl źródło w GitHubie

Interfejs Gemini API może wnioskować na podstawie przekazanych obrazów i filmów. Po przekazaniu obrazu, serii obrazów lub filmu Gemini może:

  • Opisz treści lub odpowiedz na pytania na ich temat
  • Streść treści
  • wyciągaj wnioski na podstawie treści,

Ten samouczek przedstawia kilka możliwych sposobów promptów do interfejsu Gemini API za pomocą obrazów i danych wejściowych wideo. Wszystkie dane wyjściowe zawierają tylko tekst.

Co dalej

Z tego przewodnika dowiesz się, jak korzystać z narzędzia generateContent i generować tekstowe wyniki z grafik, obrazów i filmów. Więcej informacji znajdziesz w tych materiałach: