Gemini API로 비전 기능 살펴보기

Gemini 모델은 이미지와 동영상을 처리할 수 있으므로 이전에는 도메인별 모델이 필요했던 많은 첨단 개발자 사용 사례를 지원할 수 있습니다. Gemini의 비전 기능에는 다음과 같은 기능이 포함됩니다.

  • 이미지에 대한 자막과 질문에 답하기
  • 최대 2백만 개의 토큰을 포함하여 PDF를 텍스트로 변환하고 추론
  • 최대 90분 길이의 동영상을 설명, 세그먼트화, 정보 추출
  • 이미지에서 객체를 감지하고 객체의 경계 상자 좌표를 반환합니다.

Gemini는 처음부터 멀티모달로 빌드되었으며 Google은 계속해서 가능한 한계를 넓혀 나가고 있습니다.

시작하기 전에

Gemini API를 호출하기 전에 선택한 SDK가 설치되어 있고 Gemini API 키가 구성되어 있고 사용할 준비가 되었는지 확인합니다.

다음 단계

이 가이드에서는 File API를 사용하여 이미지 및 동영상 파일을 업로드한 후 이미지 및 동영상 입력에서 텍스트 출력을 생성하는 방법을 보여줍니다. 자세한 내용은 다음 리소스를 참고하세요.

  • 파일 프롬프트 전략: Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터를 사용한 프롬프트(다중 모달 프롬프트라고도 함)를 지원합니다.
  • 시스템 안내: 시스템 안내를 사용하면 특정 요구사항 및 사용 사례에 따라 모델의 동작을 조정할 수 있습니다.
  • 안전 가이드: 생성형 AI 모델이 부정확하거나 편향되거나 불쾌감을 주는 출력과 같은 예상치 못한 출력을 생성하는 경우가 있습니다. 이러한 출력으로 인한 피해 위험을 제한하려면 후처리 및 인간 평가가 필수적입니다.