Poznaj możliwości przetwarzania dokumentów dzięki interfejsowi Gemini API

Interfejs Gemini API obsługuje dane wejściowe w formacie PDF, w tym długie dokumenty (do 3600 stron). Modele Gemini przetwarzają pliki PDF z wykorzystaniem natywnej funkcji widzenia, dzięki czemu są w stanie zrozumieć zarówno zawartość tekstową, jak i obrazową dokumentów. Dzięki natywnemu obsłudze widzenia maszynowego w PDF modele Gemini są w stanie:

  • analizować diagramy, wykresy i tabele w dokumentach;
  • wyodrębniać informacje w uporządkowanych formatach wyjściowych;
  • odpowiadać na pytania dotyczące treści wizualnych i tekstowych w dokumentach.
  • streszczać dokumenty,
  • Transkrypcja treści dokumentu (np.do formatu HTML) z zachowaniem układu i formatowania na potrzeby dalszego przetwarzania (np. w ramach procesów RAG).

W tym samouczku pokazujemy kilka sposobów korzystania z interfejsu Gemini API w przypadku dokumentów PDF. Wszystkie dane wyjściowe są w postaci tekstu.

Co dalej?

Ten przewodnik pokazuje, jak korzystać z generateContent i generować dane wyjściowe w postaci tekstu z przetworzonych dokumentów. Więcej informacji znajdziesz w tych materiałach:

  • Strategie wyświetlania promptów dotyczących plików: interfejs Gemini API obsługuje prompty z tekstem, obrazem, dźwiękiem i danymi wideo, które są też nazywane promptami multimodalnymi.
  • Instrukcje systemowe: instrukcje systemowe pozwalają kierować działaniem modelu na podstawie konkretnych potrzeb i przypadków użycia.
  • Wskazówki dotyczące bezpieczeństwa: modele generatywnej AI czasami generują nieoczekiwane wyniki, np. niedokładne, stronnicze lub obraźliwe. Przetwarzanie końcowe i sprawdzanie przez weryfikatorów są niezbędne do ograniczenia ryzyka szkód wynikających z takich danych wyjściowych.