PaliGemma 모델 카드

모델 페이지: PaliGemma

리소스 및 기술 문서:

이용약관: 약관

작성자: Google

모델 정보

모델 요약

설명

PaliGemma는 다목적 경량 비전 언어 모델 (VLM)으로 PaLI-3SigLIP 비전 모델Gemma 언어 모델을 사용합니다. 이미지와 텍스트를 모두 사용합니다. 여러 언어를 지원하는 출력으로 텍스트를 생성합니다. 그것은 업계를 선도하는 다양한 영역에서 성능을 미세 조정하도록 설계되었으며 이미지 및 짧은 동영상 자막, 시각적 질문과 같은 시각 언어 작업 응답, 텍스트 읽기, 객체 감지 및 객체 세분화가 포함됩니다.

모델 아키텍처

PaliGemma는 Transformer의 디코더Vision Transformer 이미지 인코더와 총 30억 개의 매개변수를 가지고 있습니다. 텍스트 디코더는 Gemma-2B 이미지 인코더는 다음에서 초기화됨: SigLIP-So400m/14 PaliGemma는 PaLI-3 레시피에 따라 학습되었습니다.

입력 및 출력

  • 입력: 이미지 및 텍스트 문자열(예: 이미지 설명을 위한 프롬프트) 또는 질문을 할 수 있습니다.
  • 출력: 입력에 대한 응답으로 생성된 텍스트입니다(예: 이미지, 질문에 대한 답변, 객체 경계 상자 목록 좌표, 분할 코드워드 등이 있습니다.

모델 데이터

데이터 세트 사전 학습

PaliGemma는 다음과 같은 혼합 데이터 세트에 대해 선행 학습되었습니다.

  • WebLI: WebLI (웹 언어 이미지)는 공개 웹에서 빌드한 웹 규모의 다국어 이미지-텍스트 데이터 세트입니다. 가 다목적 모델 기능을 획득하는 데 사용되는 광범위한 WebLI 분할입니다. 예를 들면 시각적 의미론적 이해, 객체 현지화 텍스트 이해, 다국어 지원 등
  • CC3M-35L: 웹페이지에서 선별된 영어 이미지-alt_text 쌍 (Sharma et 알, 2018)에 기반한 방법론을 조정했습니다. 저희는 Google Cloud Translation API를 34로 번역 추가 언어를 지원합니다.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M (Changpinyo 외, 2022a), CC3M-35L과 동일한 추가 34개 언어를 지원하며, 이는 Google Cloud Translation API를 참조하세요.
  • OpenImages: 감지 및 객체 인식 질의응답 (Piergiovanni 외 2022년) 생성: 직접 만든 규칙을 사용하여 OpenImages 데이터 세트에서 직접 규칙을 만들 수 있습니다.
  • WIT: 위키백과 (Srinivasan 외, 2021년)에 기반한 방법론을 조정했습니다.

데이터 책임 필터링

PaliGemma의 학습을 위해 다음 필터가 WebLI에 적용됩니다. 클린 데이터 분석:

  • 포르노 이미지 필터링: 포르노 이미지 필터링은 음란성
  • 텍스트 안전 필터링: 페어링된 이미지를 식별하고 필터링합니다. 텍스트 포함 안전하지 않은 텍스트란 CSAI, 음란물, 저속한 콘텐츠 또는 기타 불쾌감을 주는 콘텐츠
  • 텍스트 유해성 필터링: Google은 Perspective를 더 사용하여 API를 사용하여 이미지, 이미지, 오디오, 동영상, 모욕적이거나 음란하거나 증오심을 조장하거나 기타 악의적인 것으로 간주되는 텍스트와 함께 표시됩니다.
  • 텍스트 개인 정보 필터링: Google에서는 특정 개인 정보를 필터링했습니다. 민감한 정보 및 기타 민감한 정보를 Cloud Data Loss Prevention을 사용하여 (DLP) API를 사용하여 개인 정보를 보호하는 데 도움이 됩니다. 주민등록번호와 같은 식별자는 기타 민감한 정보 유형은 삭제되었습니다.
  • 추가 방법: Google 정책 및 관행에 부합하는지 평가합니다

구현 정보

하드웨어

PaliGemma는 최신 Tensor Processing Unit을 사용해 학습되었습니다. (TPU) 하드웨어 (TPUv5e).

소프트웨어

학습은 JAX를 사용하여 수행되었습니다. 플랙스, TFDSbig_vision:

JAX를 사용하면 연구원들은 보다 빠르고 효율적으로 대규모 모델을 학습시킬 수 있습니다.

TFDS는 데이터 세트에 액세스하는 데 사용되고 Flax는 모델 아키텍처에 사용됩니다. 이 PaliGemma 미세 조정 코드와 추론 코드가 big_vision에 출시되었습니다. GitHub 저장소

평가 정보

벤치마크 결과

PaliGemma를 다양한 대륙에 이전 가능한지 확인하기 위해 우리는 과제마다 선행 학습된 모델을 미세 조정합니다. 또한 혼합 모델을 학습시킵니다. 다음에 대한 결과 보고: 어떤 작업이 어떤 작업에 도움이 되는지에 대한 인상을 주기 위해 해상도를 높일 수 있습니다. 중요한 것은 이러한 태스크나 데이터 세트는 해당 이미지는 사전 학습 데이터 혼합에서 학습 데이터를 얻는 방법을 알아봅니다

단일 작업 (단일 작업에 대해 미세 조정)

벤치마크 (학습 분할) 측정항목 (분할) pt-224 pt-448 pt-896
자막
COCO 자막 (기차+회전식) CIDEr (val) 141.92 144.60
NoCaps (COCO 자막 전송 평가) CIDEr (val) 121.72 123.58
COCO-35L (기차) CIDEr 편차 (en/avg-34/avg)
139.2세
115.8세
116.4
141.2세
118.0
118.6세
XM3600 (COCO-35L 전송의 평가) CIDEr 편차 (en/avg-34/avg)
78.1세
41.3세
42.4세
80.0
41.9세
42.9세
TextCaps (학습) CIDEr (val) 127.48 153.94
SciCap (첫 번째 문장, 하위 그림 없음) (train+val) CIDEr/BLEU-4 (테스트)
162.25
0.192
181,490
0.211
Screen2words (train+dev) CIDEr (테스트) 117.57 119,590
위젯 캡션 (train+dev) CIDEr (테스트) 7월 136일 148,360
질의 응답
VQAv2 (학습+검증) 정확성 (테스트 서버 - 표준) 83.19 85.64
MMVP (VQAv2 트랜스퍼 평가) 페어링된 정확도 47:33 45:33
POPE (VQAv2 전송 평가) 정확성 (무작위/인기/적대적)
87.80회
85.87회
84:27
88:23
86.77세
85.90
OKVQA (트레인) 정확도 (val) 63.54 63.15
A-OKVQA (MC) (train+val) 정확성 (테스트 서버) 76.37 76.90
A-OKVQA (DA) (train+val) 정확성 (테스트 서버) 61.85 63:22
GQA (train_balanced+val_balanced) 정확성 (testdev balanced) 65.61 67:03
xGQA (GQA 트랜스퍼 평가) 평균 정확도 (bn, de, en, id, ko, pt, ru, zh) 58:37 59:07
NLVR2 (train+dev) 정확성 (테스트) 90:02 88.93
MaRVL (NLVR2 전송 평가) 평균 정확도 (테스트) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (기차) 정확성 (테스트) 72:12 73:28
ScienceQA (Img 하위 집합, CoT 없음) (train+val) 정확성 (테스트) 95.39달러 95.93
RSVQA-LR (숫자가 아님) (train+val) 평균 정확도 (테스트) 92.65 93.11
RSVQA-HR (숫자가 아님) (train+val) 평균 정확도 (테스트/테스트 2)
92.61
90.58
92.79회
90.54
ChartQA (인간+aug)x(train+val) 평균 완화 정확도 (test_human, test_aug) 57:08 71:36
VizWiz VQA (train+val) 정확성 (테스트 서버 - 표준) 73.7 75.52
TallyQA (학습) 정확성 (test_simple/test_complex)
81.72회
69.56
84.86
72:27
OCR-VQA (train+val) 정확성 (테스트) 72:32 74:61 74.93
TextVQA (train+val) 정확성 (테스트 서버 - 표준) 55.47 73.15 76.48
DocVQA (train+val) ANLS (테스트 서버) 43.74 78:02 84.77
인포그래픽 VQA (train+val) ANLS (테스트 서버) 28:46 40.47 47.75
SceneText VQA (train+val) ANLS (테스트 서버) 63.29 81.82 84.40
세분화
RefCOCO (총 refcoco, refcoco+, val 및 테스트 이미지를 제외한 refcocog) MIoU (검증) refcoco/refcoco+/refcocog
73:40
68:32
67.65
75.57
69.76
70:17
76.94
72:18
72:22
동영상 작업 (자막/QA)
MSR-VTT (자막) CIDEr (테스트) 70.54
MSR-VTT (QA) 정확성 (테스트) 50.09
ActivityNet (캡션) CIDEr (테스트) 34:62
ActivityNet (QA) 정확성 (테스트) 50.78
VATEX (자막) CIDEr (테스트) 79.73
MSVD (QA) 정확성 (테스트) 60:22

믹스 모델 (혼합 전송 작업 미세 조정)

벤치마크 측정항목 (분할) mix-224 mix-448
MMVP 페어링된 정확도 46:00 45:33
파프 정확성 (무작위/인기/적대적)
88:00
86.63
85.67세
89.37세
88.40
87.47세

윤리 및 안전

평가 방식

Google의 평가 방법에는 구조화된 평가와 내부 레드팀 구성이 포함됩니다. 관련 콘텐츠 정책 테스트 레드팀은 목표와 인적 평가 측정항목이 서로 다른 팀들입니다. 이러한 다양한 카테고리에 대해 모델이 평가되어 윤리 및 안전을 포함한

  • 아동 안전, 콘텐츠 안전, 발생할 수 있습니다 Gemma 모델 보기 카드 이미지 캡션과 시각적 요소를 사용하여 평가 방법에 대해 더 자세히 설명하겠습니다. 자세히 알아볼 수 있습니다.
  • 이미지-텍스트 벤치마크 평가: 관련 학술 자료를 기준으로 한 벤치마크 FairFace Dataset (Karkkainen 외, 2021년)에 기반한 방법론을 조정했습니다.

평가 결과

  • 윤리 및 안전성 평가에 대한 사람의 평가 결과는 내부 정책 아동 안전, 콘텐츠 안전, 표현과 같은 카테고리 발생할 수 있습니다.
  • 견고한 내부 평가 외에도 Perspective API를 사용합니다. (기준점 0.8) - 유해성, 욕설, 기타 가능성 측정 FairFace에서 제공한 이미지에 대해 생성된 설명의 문제 데이터 세트로 그룹화됩니다. 하위 그룹에서 관찰된 최댓값 및 중앙값을 보고합니다. 로 식별됩니다.
측정항목 성별 인식 민족 연령대
최대 중앙값 최대 중앙값 최대 중앙값
독성 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
신원 공격 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
모욕 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
위협 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
욕설 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

사용 및 제한사항

사용 목적

개방형 비전 언어 모델 (VLM)은 분석해야 합니다 다음 잠재적 용도 목록은 있습니다. 이 목록의 목적은 문맥 정보를 제공하는 것입니다. 모델 제작자가 모델의 일부로 고려했던 사용 사례에 관한 학습 및 개발을 지원합니다

특정 비전 언어 작업을 미세 조정합니다.

  • 선행 학습된 모델은 다양한 비전 언어로 미세 조정 가능 작업: 이미지 캡션, 짧은 동영상 자막, 시각적 질문 응답, 텍스트 읽기, 객체 감지 및 객체 세분화가 포함됩니다.
  • 선행 학습된 모델은 원격 제어와 같은 특정 도메인에 대해 미세 조정할 수 있습니다. 질의응답, 시각장애인의 시각적 질문 UI 요소의 기능을 설명합니다.
  • 선행 학습된 모델은 텍스트가 아닌 출력이 있는 태스크에 맞게 미세 조정할 수 있습니다. 세그멘테이션 마스크를 예로 들 수 있습니다

비전 언어 연구:

  • 선행 학습된 모델과 미세 조정된 모델은 VLM 기술을 실험하고 알고리즘을 개발하며 이 분야 발전에 기여할 수 있습니다.

윤리적 고려사항 및 위험

비전 언어 모델 (VLM)의 개발로 인해 있습니다 Google은 개방형 모델을 만들 때 다음 사항을 신중하게 고려했습니다.

  • 편향과 공정성
    • 대규모의 실제 이미지 텍스트 데이터로 학습된 VLM은 사회문화적 편견을 발견해야 한다는 것입니다 이러한 모델은 세심한 조사를 거쳤고 입력 데이터 사전 처리와 사후 평가를 확인할 수 있습니다
  • 잘못된 정보 및 오용
    • VLM은 거짓이거나 오해의 소지가 있거나 오해의 소지가 있는 텍스트를 생성하는 데 오용될 수 있습니다. 유해할 수 있습니다.
    • 모델을 책임감 있게 사용하기 위한 가이드라인이 제공됩니다. 자세한 내용은 책임감 있는 생성형 AI 툴킷입니다.
  • 투명성 및 책임
    • 이 모델 카드에는 모델의 아키텍처, 및 평가 프로세스를 숙지해야 합니다.
    • 책임감 있게 개발된 개방형 모델은 책임감 있는 AI를 개발자와 조직이 VLM 기술에 액세스할 수 있도록 연구자들과 협업하기 시작했습니다.

식별된 위험 및 완화 조치:

  • 편향의 지속: 편향을 지속적으로 모니터링하는 것이 좋습니다. (평가 측정항목, 사람의 검토 사용) 및 탈편향 탐색 미세 조정 및 기타 사용 사례에서 다양한 기술을 활용할 수 있습니다.
  • 유해한 콘텐츠 생성: 콘텐츠 메커니즘 및 가이드라인 안전은 매우 중요합니다 개발자는 주의를 기울이고 콘텐츠 안전 장치의 구체적인 보호 장치를 애플리케이션 사용 사례를 살펴보겠습니다
  • 악의적인 목적의 오용: 기술적 제한, 개발자 및 최종 사용자 교육은 LLM의 악성 애플리케이션을 완화하는 데 도움이 될 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스 및 신고 메커니즘 제공: 책임감 있는 생성형 AI 툴킷 참조 Gemma의 금지된 사용 Gemma 금지된 사용 정책에 설명되어 있습니다.
  • 개인 정보 보호 위반: 모델을 삭제하도록 필터링된 데이터를 학습했습니다. 특정 개인 정보 및 민감한 정보가 포함됩니다. 개발자에게는 개인 정보 보호 기술을 사용하여 개인 정보 보호 규정을 준수합니다.

제한사항

  • 기본 Gemma 모델에서 상속된 대부분의 제한사항이 계속 적용됩니다.
    • VLM은 명확한 프롬프트와 참조하세요. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
    • 자연어는 본질적으로 복잡합니다. VLM은 특정 작업을 파악하기가 어려울 수 있으며 미묘한 뉘앙스, 풍자, 상징어
    • VLM은 시스템 내에서 학습한 정보를 바탕으로 기술 자료는 아닙니다 이로 인해 사실에 근거한 진술이 포함될 수 있습니다.
    • VLM은 언어와 이미지의 통계 패턴을 사용합니다. 그들은 특정 상황에서 상식적인 추론을 적용하는 능력이 부족합니다.
  • PaliGemma는 무엇보다도 일반적인 선행 학습된 모델로서 미세 조정하기 위한 모델입니다. 따라서 '즉시 사용 가능'한 또는 '제로샷' 특정 목적에 맞게 설계된 모델에 비해 성능이 있습니다.
  • PaliGemma는 멀티턴 챗봇이 아닙니다. 한 번의 라운드로 설계되었으며 이미지 및 텍스트 입력입니다.