Gemini API는 이미지와 동영상을 처리할 수 있으므로 다양한 개발자 사용 사례를 지원할 수 있습니다. Gemini의 비전 기능에는 다음과 같은 기능이 있습니다.
- 이미지에 캡션을 지정하고 이미지에 관한 질문에 답변
- 최대 2백만 개 토큰 컨텍스트 윈도우의 긴 문서를 포함하여 PDF를 텍스트로 변환하고 추론합니다.
- 최대 90분 길이의 동영상에서 시각적 프레임과 오디오를 모두 포함하여 동영상을 설명, 세분화, 추출합니다.
- 이미지에서 객체를 감지하고 객체의 경계 상자 좌표를 반환합니다.
이 튜토리얼에서는 이미지 및 동영상 입력으로 Gemini API에 프롬프트를 표시하는 몇 가지 방법을 보여주고, 코드 예시를 제공하며, 멀티모달 비전 기능을 사용한 프롬프트 권장사항을 간략히 설명합니다. 모든 출력은 텍스트로만 표시됩니다.
다음 단계
이 가이드에서는 File API를 사용하여 이미지 및 동영상 파일을 업로드한 후 이미지 및 동영상 입력에서 텍스트 출력을 생성하는 방법을 보여줍니다. 자세한 내용은 다음 리소스를 참고하세요.
- 파일 프롬프트 전략: Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터를 사용한 프롬프트를 지원합니다. 이를 멀티모달 프롬프트라고도 합니다.
- 시스템 안내: 시스템 안내를 사용하면 특정 요구사항 및 사용 사례에 따라 모델의 동작을 조정할 수 있습니다.
- 안전 가이드: 생성형 AI 모델이 부정확하거나 편향적이거나 불쾌감을 주는 출력과 같은 예상치 못한 출력을 생성하는 경우가 있습니다. 이러한 출력으로 인한 피해 위험을 제한하려면 후처리 및 사람의 평가가 필수적입니다.