PaliGemma
PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 하는 경량의 개방형 비전 언어 모델 (VLM)입니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 컨텍스트가 있는 이미지 관련 질문에 답변할 수 있습니다. 즉, PaliGemma는 이미지를 심층 분석하고 이미지 및 짧은 동영상에 대한 캡션, 객체 감지, 이미지 내에 삽입된 텍스트 읽기와 같은 유용한 정보를 제공할 수 있습니다.
PaliGemma 모델에는 범용 세트와 연구 중심의 세트라는 두 가지 세트가 있습니다.
- PaliGemma - 다양한 작업에 맞게 미세 조정할 수 있는 범용 사전 학습된 모델입니다.
- PaliGemma-FT - 특정 연구 데이터 세트를 기반으로 미세 조정된 연구 중심 모델입니다.
이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.
-
다중 모달 이해
이미지와 텍스트를 동시에 이해합니다. -
다목적 기본 모델
다양한 비전 언어 작업에서 미세 조정 가능 -
즉시 사용 가능한 탐색 분석
즉각적인 연구에 사용할 수 있도록 혼합된 작업에 대해 체크포인트가 함께 제공됩니다.
자세히 알아보기
모델 카드 보기
PaliGemma의 모델 카드에는 모델, 구현 정보, 평가 정보, 모델 사용 및 제한사항 등에 관한 자세한 정보가 포함되어 있습니다.
Kaggle에서 보기
Kaggle에서 PaliGemma에 관한 더 많은 코드, Colab 노트북, 정보, 토론을 확인해 보세요.
Colab에서 실행
Colab에서 JAX를 사용해 PaliGemma를 미세 조정하는 실제 예시를 실행해 보세요.