Wyświetl na ai.google.dev | Uruchom w Google Colab | Wyświetl źródło w GitHubie |
Interfejs Gemini API może wnioskować na podstawie przekazanych obrazów i filmów. Po przekazaniu obrazu, serii obrazów lub filmu Gemini może:
- Opisz treści lub odpowiedz na pytania na ich temat
- Streść treści
- wyciągaj wnioski na podstawie treści,
Ten samouczek przedstawia kilka możliwych sposobów promptów do interfejsu Gemini API za pomocą obrazów i danych wejściowych wideo. Wszystkie dane wyjściowe zawierają tylko tekst.
Co dalej
Z tego przewodnika dowiesz się, jak korzystać z narzędzia generateContent
i generować tekstowe wyniki z grafik, obrazów i filmów. Więcej informacji znajdziesz w tych materiałach:
- Wyświetlanie promptów przy użyciu plików multimedialnych: Gemini API obsługuje prompty zawierające dane tekstowe, graficzne, dźwiękowe i wideo.
- Instrukcje systemowe: instrukcje systemowe pozwalają sterować działaniem modelu w zależności od konkretnych potrzeb i przypadków użycia.
- Wskazówki dotyczące bezpieczeństwa: czasami modele generatywnej AI generują nieoczekiwane wyniki, na przykład wyniki, które są niedokładne, stronnicze lub obraźliwe. Przygotowanie do edycji oraz ocena manualna jest kluczowe dla ograniczenia ryzyku szkód wynikających z takich wyników.