PaliGemma

PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 하는 경량의 개방형 비전 언어 모델 (VLM)입니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 컨텍스트가 있는 이미지 관련 질문에 답변할 수 있습니다. 즉, PaliGemma는 이미지를 심층 분석하고 이미지 및 짧은 동영상에 대한 캡션, 객체 감지, 이미지 내에 삽입된 텍스트 읽기와 같은 유용한 정보를 제공할 수 있습니다.

PaliGemma 모델에는 범용 세트와 연구 중심의 세트라는 두 가지 세트가 있습니다.

  • PaliGemma - 다양한 작업에 맞게 미세 조정할 수 있는 범용 사전 학습된 모델입니다.
  • PaliGemma-FT - 특정 연구 데이터 세트를 기반으로 미세 조정된 연구 중심 모델입니다.

이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.

  • 이미지와 텍스트를 동시에 이해합니다.
  • 다양한 비전 언어 작업에서 미세 조정 가능
  • 즉각적인 연구에 사용할 수 있도록 혼합된 작업에 대해 체크포인트가 함께 제공됩니다.

자세히 알아보기

PaliGemma의 모델 카드에는 모델, 구현 정보, 평가 정보, 모델 사용 및 제한사항 등에 관한 자세한 정보가 포함되어 있습니다.
Kaggle에서 PaliGemma에 관한 더 많은 코드, Colab 노트북, 정보, 토론을 확인해 보세요.
Colab에서 JAX를 사용해 PaliGemma를 미세 조정하는 실제 예시를 실행해 보세요.