Poznaj możliwości w zakresie rozpoznawania treści dzięki interfejsowi Gemini API

Interfejs Gemini API umożliwia przetwarzanie obrazów i filmów, co daje wiele ciekawych możliwości dla programistów. Gemini potrafi m.in.:

  • Dodawanie podpisów i odpowiadanie na pytania dotyczące obrazów
  • Transkrypcja i racjonalne przetwarzanie plików PDF, w tym długich dokumentów z oknem kontekstu obejmującym do 2 mln tokenów
  • opisywać, dzielić na segmenty i wyodrębniać informacje z filmów, w tym obrazy i dźwięk, o długości do 90 minut;
  • Wykrywanie obiektów na obrazie i zwracanie ich współrzędnych ramki ograniczającej

W tym samouczku pokazujemy kilka możliwych sposobów wywołania Gemini API za pomocą obrazów i wejść wideo. Podajemy też przykłady kodu i wskazówki dotyczące wywoływania za pomocą funkcji widzenia multimodalnego. Wszystkie dane wyjściowe są w postaci tekstu.

Co dalej?

Z tego przewodnika dowiesz się, jak przesyłać pliki graficzne i wideo za pomocą interfejsu File API, a potem generować tekst na podstawie obrazów i filmów. Więcej informacji znajdziesz w tych materiałach:

  • Strategie wyświetlania promptów dotyczących plików: interfejs Gemini API obsługuje prompty z tekstem, obrazem, dźwiękiem i danymi wideo, które są też nazywane promptami multimodalnymi.
  • Instrukcje systemowe: instrukcje systemowe pozwalają kierować działaniem modelu na podstawie konkretnych potrzeb i przypadków użycia.
  • Wskazówki dotyczące bezpieczeństwa: modele generatywnej AI czasami generują nieoczekiwane wyniki, np. niedokładne, stronnicze lub obraźliwe. Przetwarzanie końcowe i sprawdzanie przez weryfikatorów są niezbędne do ograniczenia ryzyka szkód wynikających z takich danych wyjściowych.