PaliGemma 모델 카드

모델 페이지: PaliGemma

리소스 및 기술 문서:

이용약관: 약관

저자: Google

모델 정보

모델 요약

설명

PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 하는 다목적 경량 비전 언어 모델 (VLM)입니다. 이미지와 텍스트를 모두 입력으로 사용하고 텍스트를 출력으로 생성하며 여러 언어를 지원합니다. 이미지 및 짧은 동영상 자막, 시각적 질의 응답, 텍스트 읽기, 객체 감지, 객체 세분화와 같은 다양한 비전 언어 작업에서 동급 최고의 미세 조정 성능을 제공하도록 설계되었습니다.

모델 아키텍처

PaliGemma는 Transformer 디코더Vision Transformer 이미지 인코더의 조합으로 총 30억 개의 매개변수가 있습니다. 텍스트 디코더는 Gemma-2B에서 초기화됩니다. 이미지 인코더는 SigLIP-So400m/14에서 초기화됩니다. PaliGemma는 PaLI-3 레시피에 따라 학습됩니다.

투입 및 출력

  • 입력: 이미지 및 텍스트 문자열(예: 이미지 자막을 위한 프롬프트 또는 질문)
  • 출력: 이미지 캡션, 질문에 대한 답변, 객체 경계 상자 좌표 목록, 세분화 코드워드와 같은 입력에 대한 응답으로 생성된 텍스트입니다.

모델 데이터

데이터 세트 사전 학습

PaliGemma는 다음과 같은 데이터 세트 혼합으로 사전 학습됩니다.

데이터 책임 필터링

클린 데이터로 PaliGemma를 학습시키기 위해 WebLI에 다음 필터가 적용됩니다.

  • 포르노 이미지 필터링: 이 필터는 음란물로 간주되는 이미지를 삭제합니다.
  • 텍스트 안전 필터링: Google은 안전하지 않은 텍스트와 쌍을 이루는 이미지를 식별하고 필터링합니다. 안전하지 않은 텍스트는 CSAI, 포르노, 저속한 내용 또는 기타 불쾌감을 주는 내용이 포함되거나 이에 관한 것으로 간주되는 텍스트를 의미합니다.
  • 악성 텍스트 필터링: Google은 또한 Perspective API를 사용하여 모욕적이거나 외설적이거나 증오심을 조장하거나 기타 악의적이라고 간주되는 텍스트와 결합된 이미지를 식별하고 필터링합니다.
  • 텍스트 개인 정보 필터링: Google은 개인의 개인 정보를 보호하기 위해 Cloud Data Loss Prevention(DLP) API를 사용하여 특정 개인 정보 및 기타 민감한 정보를 필터링했습니다. 주민등록번호와 같은 식별자 및 기타 민감한 정보 유형은 삭제되었습니다.
  • 추가 방법: Google 정책 및 관행에 따라 콘텐츠 품질 및 안전성을 기반으로 필터링합니다.

구현 정보

하드웨어

PaliGemma는 최신 세대의 Tensor Processing Unit(TPU) 하드웨어 (TPUv5e)를 사용하여 학습되었습니다.

소프트웨어

학습은 JAX, Flax, TFDSbig_vision를 사용하여 실행되었습니다.

JAX를 통해 연구원들은 TPU를 포함한 최신 세대의 하드웨어를 활용하여 대규모 모델을 더 빠르고 효율적으로 학습시킬 수 있습니다.

TFDS는 데이터 세트에 액세스하는 데 사용되고 Flax는 모델 아키텍처에 사용됩니다. PaliGemma 미세 조정 코드 및 추론 코드는 big_vision GitHub 저장소에 출시되었습니다.

평가 정보

벤치마크 결과

PaliGemma를 다양한 학술 작업에 이용할 수 있는지 확인하기 위해 각 작업에 대해 선행 학습된 모델을 미세 조정합니다. 또한 전송 작업을 혼합하여 믹스 모델을 학습시킵니다. Google은 다양한 해상도의 결과를 보고하여 어떤 작업이 해상도 향상이 도움이 되는지를 보여줍니다. 중요한 점은 이러한 태스크나 데이터 세트 중 어느 것도 사전 학습 데이터 혼합에 포함되지 않으며 해당 이미지는 웹 규모의 사전 학습 데이터에서 명시적으로 삭제된다는 점입니다.

단일 작업 (단일 작업에 대해 미세 조정)

업계 기준치 (열차 분할) 측정항목 (분할) pt-224 pt-448 pt-896
자막
COCO 자막 (train+restval) CIDEr (val) 141.92달러 144,600
NoCaps (COCO 자막 이전 평가) CIDEr (val) 121,720 123,580
COCO-35L (기차) CIDEr 개발 (en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (COCO-35L 전송 평가) CIDEr 개발 (en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (트레인) CIDEr (val) 127,480 153,940
SciCap (첫 번째 문장, 하위 그림 없음) (train+val) CIDEr/BLEU-4 (테스트)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDEr (테스트) 117,570 119,590원
위젯 자막 (train+dev) CIDEr (테스트) 136,070 148,360
질의 응답
VQAv2 (학습+검증) 정확성 (테스트 서버 - std) 8,319만 85,640원
MMVP (VQAv2 전송 평가) 페어링된 정확도 47,330 45,330원
POPE (VQAv2 전송 평가) 정확성 (무작위/인기/적대적)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (기차) 정확성 (val) 6,354만 6,315만
A-OKVQA (MC) (train+val) 정확성 (테스트 서버) 76,370 76,900원
A-OKVQA (DA) (train+val) 정확성 (테스트 서버) 61,850 6,322만
GQA (train_balanced+val_balanced) 정확성 (테스트 편차 균형) 65,610원 67,030
xGQA (GQA 전송 평가) 평균 정확성 (bn, de, en, id, ko, pt, ru, zh) 5,837만 5,907만
NLVR2 (train+dev) 정확성 (테스트) 90,020 88,930
MaRVL (NLVR2 전송 평가) 평균 정확도 (테스트) (id, sw, ta, tr, zh) 80,570 76,780
AI2D (기차) 정확성 (테스트) 7,212만 7,328만
ScienceQA (Img 하위 집합, CoT 없음) (train+val) 정확성 (테스트) 95,390원 95,930원
RSVQA-LR (비숫자) (train+val) 평균 정확성 (테스트) 92,650원 9,311만
RSVQA-HR (비숫자) (train+val) 평균 정확성 (test/test2)
92.61
90.58
92.79
90.54
ChartQA (인간+aug)x(train+val) 평균 완화 정확도 (test_human, test_aug) 5,708만 7,136만
VizWiz VQA (train+val) 정확성 (테스트 서버 - std) 7,370 75,520원
TallyQA (트레인) 정확성 (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (train+val) 정확성 (테스트) 72,320 7,461만 74.93
TextVQA (train+val) 정확성 (테스트 서버 - std) 5,547만 7,315만 76,480
DocVQA (train+val) ANLS (테스트 서버) 4,374만 78,020 84,770
인포그래픽 VQA (train+val) ANLS (테스트 서버) 2,846만 4,047만 47,750
SceneText VQA (train+val) ANLS (테스트 서버) 6,329만 8,182만 84,400
세분화
RefCOCO (val 및 테스트 이미지를 제외한 refcoco, refcoco+, refcocog 조합) MIoU (검증) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
동영상 작업 (자막/품질보증)
MSR-VTT (자막) CIDEr (테스트) 70,540원
MSR-VTT (QA) 정확성 (테스트) 50,090원
ActivityNet (Captioning) CIDEr (테스트) 3,462만
ActivityNet (QA) 정확성 (테스트) 5,078
VATEX (캡션) CIDEr (테스트) 79,730원
MSVD (QA) 정확성 (테스트) 6,022만

믹스 모델 (전송 작업 혼합에 대해 미세 조정)

벤치마크 측정항목 (분할) mix-224 mix-448
MMVP 페어링된 정확도 46,000 45,330원
POPE 정확성 (무작위/인기/적대적)
88.00
86.63
85.67
89.37
88.40
87.47

윤리 및 안전

평가 방식

평가 방법에는 구조화된 평가와 관련 콘텐츠 정책의 내부 레드팀 테스트가 포함됩니다. 레드팀 활동은 각각 목표와 평가 지표가 서로 다른 여러 팀에 의해 수행되었습니다. 이 모델은 윤리 및 안전과 관련된 여러 카테고리를 기준으로 평가되었으며, 여기에는 다음이 포함됩니다.

  • 아동 안전, 콘텐츠 안전, 대표적 피해와 관련된 프롬프트에 대한 사람의 평가 이미지 캡션과 시각적 질의 응답 설정이 포함된 평가 방식에 대한 자세한 내용은 Gemma 모델 카드를 참조하세요.
  • 이미지-텍스트 벤치마크 평가: FairFace 데이터 세트 (Karkkainen 외, (2021년)에 기반한 방법론을 조정했습니다.

평가 결과

  • 윤리 및 안전 평가에 대한 사람의 평가 결과는 아동 안전, 콘텐츠 안전, 표현적 피해와 같은 카테고리의 내부 정책을 충족하기 위해 허용 가능한 기준점 이내입니다.
  • 강력한 내부 평가 외에도 Perspective API(기준점 0.8)를 사용하여 FairFace 데이터 세트에서 가져온 이미지에 대해 생성된 캡션의 악의성, 욕설, 기타 잠재적 문제를 측정합니다. Google은 인식된 성별, 민족, 연령 속성별로 하위 그룹에서 관찰된 최댓값 및 중앙값을 보고합니다.
측정항목 성별 인식 민족 연령대
최대 중앙값 최대 중앙값 최대 중앙값
독성 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
신원 공격 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
모욕 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
위협 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
욕설 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

사용 및 제한사항

용도

Open Vision 언어 모델 (VLM)은 다양한 산업과 분야의 다양한 애플리케이션을 지원합니다. 다음의 잠재적 용도 목록은 포괄적이지 않습니다. 이 목록의 목적은 모델 제작자가 모델 학습 및 개발의 일부로 고려한 가능한 사용 사례에 대한 컨텍스트 정보를 제공하는 것입니다.

특정 비전 언어 작업 미세 조정:

  • 선행 학습된 모델은 이미지 캡션, 짧은 동영상 캡션, 시각적 질의 응답, 텍스트 읽기, 객체 감지, 객체 세분화와 같은 다양한 비전 언어 태스크에서 미세 조정할 수 있습니다.
  • 선행 학습된 모델은 원격 감지 질의 응답, 시각장애인의 시각적 질문, 과학적 질의 응답, UI 요소 기능 설명과 같은 특정 도메인에 맞게 미세 조정할 수 있습니다.
  • 선행 학습된 모델은 경계 상자 또는 세분화 마스크와 같이 텍스트가 아닌 출력이 있는 작업에 맞게 미세 조정할 수 있습니다.

비전 언어 연구:

  • 선행 학습된 모델과 미세 조정된 모델은 연구자들이 VLM 기법을 실험하고, 알고리즘을 개발하며, 이 분야의 발전에 기여하는 기반이 될 수 있습니다.

윤리적 고려사항과 위험

비전 언어 모델 (VLM)의 개발은 몇 가지 윤리적 우려를 제기합니다. Google은 공개 모델을 만들 때 다음 사항을 신중하게 고려했습니다.

  • 편견과 공정성
    • 대규모의 실제 이미지 텍스트 데이터로 학습된 VLM은 학습 자료에 포함된 사회문화적 편향을 반영할 수 있습니다. 이러한 모델은 정밀한 정밀 조사, 입력 데이터 전처리 설명 및 이 카드에 보고된 사후 평가를 거쳤습니다.
  • 잘못된 정보 및 오용
    • VLM은 거짓이거나 오해의 소지가 있거나 유해한 텍스트를 생성하는 데 오용될 수 있습니다.
    • 책임감 있는 방식으로 모델을 사용하기 위한 가이드라인이 제공됩니다. 책임감 있는 생성형 AI 도구 키트를 참고하세요.
  • 투명성 및 책임
    • 이 모델 카드에는 모델의 아키텍처, 기능, 제한사항, 평가 프로세스에 대한 세부정보가 요약되어 있습니다.
    • 책임감 있게 개발된 개방형 모델은 AI 생태계 전반의 개발자와 연구자가 VLM 기술에 액세스할 수 있도록 하여 혁신을 공유할 기회를 제공합니다.

파악된 위험 요소 및 완화 방법:

  • 편향의 영구화: 모델 학습, 미세 조정, 기타 사용 사례 중에 지속적인 모니터링(평가 측정항목, 사람의 검토 사용)과 편향 제거 기법을 탐색하는 것이 좋습니다.
  • 유해한 콘텐츠 생성: 콘텐츠 안전을 위한 메커니즘과 가이드라인이 필수적입니다. 개발자는 특정 제품 정책 및 애플리케이션 사용 사례에 따라 주의를 기울이고 적절한 콘텐츠 안전 보호 장치를 구현하는 것이 좋습니다.
  • 악의적인 목적으로 오용: 기술적 제한과 개발자 및 최종 사용자 교육을 통해 LLM의 악성 애플리케이션을 완화할 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스와 신고 메커니즘이 제공됩니다. 책임감 있는 생성형 AI 도구 키트를 참고하세요. Gemma 모델의 금지된 사용은 Gemma 금지된 사용 정책에 설명되어 있습니다.
  • 개인 정보 침해 위반: 특정 개인 정보와 민감한 정보를 삭제하도록 필터링된 데이터를 기준으로 모델이 학습되었습니다. 개발자는 개인 정보 보호 기술을 사용하여 개인 정보 보호 규정을 준수하는 것이 좋습니다.

제한사항

  • 기본 Gemma 모델에서 상속된 대부분의 제한사항은 여전히 적용됩니다.
    • VLM은 명확한 프롬프트와 안내로 프레이밍할 수 있는 작업에 더 적합합니다. 개방형이거나 매우 복잡한 작업은 어려울 수 있습니다.
    • 자연어는 본질적으로 복잡합니다. VLM은 미묘한 뉘앙스, 비꼬는 말, 비유적 언어를 이해하는 데 어려움을 겪을 수 있습니다.
    • VLM은 학습 데이터 세트에서 학습한 정보를 기반으로 응답을 생성하지만 기술 자료는 아닙니다. 부정확하거나 오래된 사실 진술을 생성할 수도 있습니다.
    • VLM은 언어 및 이미지의 통계 패턴에 의존합니다. 특정 상황에서 상식적인 추론을 적용하는 능력이 부족할 수 있습니다.
  • PaliGemma는 무엇보다도 특수한 작업에 맞춰 미세 조정하기 위한 일반 사전 학습된 모델로 사용할 수 있도록 설계되었습니다. 따라서 '즉시 사용 가능' 또는 '제로샷' 성능은 이를 위해 특별히 설계된 모델보다 뒤처질 수 있습니다.
  • PaliGemma는 멀티턴 챗봇이 아닙니다. 단일 라운드의 이미지 및 텍스트 입력을 위해 설계되었습니다.