PaliGemma
PaliGemma는 PaLI-3, SigLIP와 같은 개방형 구성요소를 기반으로 비전 모델, Gemma 언어 모델을 참조하세요. PaliGemma는 이미지와 텍스트를 모두 입력으로 받아 이를 통해 PaliGemma를 통해 웹사이트의 데이터를 이미지 및 짧은 동영상에 자막이나 객체 인식, 이미지에 포함된 텍스트 읽기
PaliGemma 모델에는 범용 세트와 연구 중심 세트라는 두 가지 세트가 있습니다.
- PaliGemma: 다양한 태스크에서 미세 조정할 수 있는 범용 선행 학습된 모델입니다.
- PaliGemma-FT: 특정 연구 데이터 세트에 맞춰 미세 조정된 연구 중심 모델
이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.
-
다중 모달 이해
이미지와 텍스트를 동시에 이해합니다. -
다목적 기본 모델
다양한 비전 언어 작업에서 미세 조정 가능 -
즉시 사용 가능한 탐색 분석
즉각적인 연구에 사용할 수 있도록 혼합된 작업에 대해 체크포인트가 함께 제공됩니다.
자세히 알아보기
모델 카드 보기
PaliGemma의 모델 카드에는 모델, 구현 정보, 평가 정보, 모델 사용 및 제한사항 등에 관한 자세한 정보가 포함되어 있습니다.
Kaggle에서 보기
Kaggle에서 PaliGemma에 관한 더 많은 코드, Colab 노트북, 정보, 토론을 확인해 보세요.
Colab에서 실행
Colab에서 JAX를 사용해 PaliGemma를 미세 조정하는 실제 예시를 실행해 보세요.