rozumienie dokumentów;

Interfejs Gemini API obsługuje dane wejściowe w formacie PDF, w tym długie dokumenty (do 3600 stron). Modele Gemini przetwarzają pliki PDF z wykorzystaniem natywnej funkcji widzenia, dzięki czemu są w stanie zrozumieć zarówno zawartość tekstową, jak i graficzną dokumentów. Dzięki natywnemu wsparciu dla widzenia maszynowego w PDF modele Gemini mogą:

  • analizować diagramy, wykresy i tabele w dokumentach;
  • Wyodrębnianie informacji w uporządkowanych formatach wyjściowych
  • odpowiadać na pytania dotyczące treści wizualnych i tekstowych w dokumentach;
  • streszczać dokumenty,
  • Transkrybowanie treści dokumentu (np. do formatu HTML) z zachowaniem układu i formatowania na potrzeby dalszego przetwarzania

W tym samouczku pokazujemy kilka sposobów korzystania z interfejsu Gemini API do przetwarzania dokumentów PDF.

Co dalej?

Więcej informacji znajdziesz w tych materiałach: