Gemini API는 긴 문서 (최대 3, 600페이지)를 포함한 PDF 입력을 지원합니다.
Gemini 모델은 기본 비전으로 PDF를 처리하므로 문서 내 텍스트와 이미지 콘텐츠를 모두 이해할 수 있습니다. 네이티브 PDF 비전 지원을 통해 Gemini 모델은 다음을 실행할 수 있습니다.
문서 내의 다이어그램, 차트, 표 분석
구조화된 출력 형식으로 정보를 추출
문서의 시각적 콘텐츠 및 텍스트 콘텐츠에 관한 질문에 답변
문서 요약
다운스트림 애플리케이션에서 사용할 수 있도록 레이아웃과 서식을 보존하면서 문서 콘텐츠를 스크립트로 변환 (예: HTML로)
이 튜토리얼에서는 Gemini API를 사용하여 PDF 문서를 처리하는 몇 가지 방법을 보여줍니다.
다음 단계
자세한 내용은 다음 리소스를 참고하세요.
파일 프롬프트 전략: Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터를 사용한 프롬프트(다중 모달 프롬프트라고도 함)를 지원합니다.
시스템 안내: 시스템 안내를 사용하면 특정 요구사항 및 사용 사례에 따라 모델의 동작을 조정할 수 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-04-28(UTC)"],[],[]]