Interfejs Gemini API umożliwia przetwarzanie obrazów i filmów, co daje wiele ciekawych możliwości dla programistów. Gemini potrafi m.in.:
- Dodawanie podpisów i odpowiadanie na pytania dotyczące obrazów
- Transkrypcja i racjonalne przetwarzanie plików PDF, w tym długich dokumentów z oknem kontekstu obejmującym do 2 mln tokenów
- opisywać, dzielić na segmenty i wyodrębniać informacje z filmów, w tym obrazy i dźwięk, o długości do 90 minut;
- Wykrywanie obiektów na obrazie i zwracanie ich współrzędnych ramki ograniczającej
W tym samouczku pokazujemy kilka możliwych sposobów wywołania Gemini API za pomocą obrazów i wejść wideo. Podajemy też przykłady kodu i wskazówki dotyczące wywoływania za pomocą funkcji widzenia multimodalnego. Wszystkie dane wyjściowe są w postaci tekstu.
Co dalej?
Z tego przewodnika dowiesz się, jak przesyłać pliki graficzne i wideo za pomocą interfejsu File API, a potem generować tekst na podstawie obrazów i filmów. Więcej informacji znajdziesz w tych materiałach:
- Strategie wyświetlania promptów dotyczących plików: interfejs Gemini API obsługuje prompty z tekstem, obrazem, dźwiękiem i danymi wideo, które są też nazywane promptami multimodalnymi.
- Instrukcje systemowe: instrukcje systemowe pozwalają kierować działaniem modelu na podstawie konkretnych potrzeb i przypadków użycia.
- Wskazówki dotyczące bezpieczeństwa: modele generatywnej AI czasami generują nieoczekiwane wyniki, np. niedokładne, stronnicze lub obraźliwe. Przetwarzanie końcowe i sprawdzanie przez weryfikatorów są niezbędne do ograniczenia ryzyka szkód wynikających z takich danych wyjściowych.