PaliGemma

PaliGemma는 PaLI-3, SigLIP와 같은 개방형 구성요소를 기반으로 비전 모델, Gemma 언어 모델을 참조하세요. PaliGemma는 이미지와 텍스트를 모두 입력으로 받아 이를 통해 PaliGemma를 통해 웹사이트의 데이터를 이미지 및 짧은 동영상에 자막이나 객체 인식, 이미지에 포함된 텍스트 읽기

PaliGemma 모델에는 범용 세트와 연구 중심 세트라는 두 가지 세트가 있습니다.

  • PaliGemma: 다양한 태스크에서 미세 조정할 수 있는 범용 선행 학습된 모델입니다.
  • PaliGemma-FT: 특정 연구 데이터 세트에 맞춰 미세 조정된 연구 중심 모델

이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.

  • 이미지와 텍스트를 동시에 이해합니다.
  • 다양한 비전 언어 작업에서 미세 조정 가능
  • 즉각적인 연구에 사용할 수 있도록 혼합된 작업에 대해 체크포인트가 함께 제공됩니다.

자세히 알아보기

PaliGemma의 모델 카드에는 모델, 구현 정보, 평가 정보, 모델 사용 및 제한사항 등에 관한 자세한 정보가 포함되어 있습니다.
Kaggle에서 PaliGemma에 관한 더 많은 코드, Colab 노트북, 정보, 토론을 확인해 보세요.
Colab에서 JAX를 사용해 PaliGemma를 미세 조정하는 실제 예시를 실행해 보세요.