Gemini API로 비전 기능 살펴보기

ai.google.dev에서 보기 Google Colab에서 실행 GitHub에서 소스 보기

Gemini API는 전달된 이미지와 동영상에 대한 추론을 실행할 수 있습니다. 통과 시 이미지, 연속 이미지 또는 동영상인 경우 Gemini는 다음과 같은 작업을 할 수 있습니다.

  • 콘텐츠에 관한 설명 또는 질문에 답변
  • 콘텐츠를 요약하세요.
  • 콘텐츠에서 추론

이 튜토리얼에서는 Gemini API에 다음과 같은 프롬프트를 추가하는 몇 가지 방법을 보여줍니다. 이미지, 비디오 입력. 모든 출력은 텍스트 전용입니다.

다음 단계

이 가이드에서는 generateContent 및 이미지 및 동영상 입력에서 텍스트 출력을 생성합니다. 자세히 알아보려면 다음 리소스를 참고하세요.

  • 미디어 파일로 메시지 표시: Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터의 프롬프팅을 지원하며 멀티모달 프롬프팅이라고 합니다
  • 시스템 안내: 시스템 지시사항을 사용하면 특정 작업 수행을 기준으로 모델의 동작을 사용 사례를 파악할 수 있습니다
  • 안전 안내: 생성형 AI가 존재함 모델이 부정확한 출력, 불쾌감을 주는 콘텐츠 후처리와 사람의 평가는 이러한 출력으로 인한 피해 위험을 최소화해야 합니다.