모델 페이지: PaliGemma
리소스 및 기술 문서:
이용약관: 약관
저자: Google
모델 정보
모델 요약
PaliGemma 2는 Gemma 2 모델의 기능을 통합한 PaliGemma 비전 언어 모델 (VLM)의 업데이트입니다. PaliGemma 모델 제품군은 PaLI-3에서 영감을 얻었으며 SigLIP 비전 모델 및 Gemma 2 언어 모델과 같은 공개 구성요소를 기반으로 합니다. 이미지와 텍스트를 모두 입력으로 받아 텍스트를 출력으로 생성하며 여러 언어를 지원합니다. 이미지 및 짧은 동영상 캡션, 시각적 질문 답변, 텍스트 읽기, 객체 감지, 객체 세분화와 같은 다양한 시각적 언어 작업에서 업계 최고의 미세 조정 성능을 제공하도록 설계되었습니다.
모델 아키텍처
PaliGemma 2는 Transformer 디코더와 Vision Transformer 이미지 인코더의 조합입니다. 텍스트 디코더는 2B, 9B, 27B 파라미터 크기의 Gemma 2에서 초기화됩니다. 이미지 인코더는 SigLIP-So400m/14에서 초기화됩니다. 원래 PaliGemma 모델과 마찬가지로 PaliGemma 2는 PaLI-3 레시피에 따라 학습됩니다.
입력 및 출력
- 입력: 이미지 및 텍스트 문자열(예: 이미지 캡션을 위한 프롬프트 또는 질문)
- 출력: 입력에 대한 응답으로 생성된 텍스트(예: 이미지의 자막, 질문에 대한 답변, 객체 경계 상자 좌표 목록, 세분화 코드워드)입니다.
인용
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
모델 데이터
사전 학습 데이터 세트
PaliGemma 2는 다음과 같은 데이터 세트 조합을 토대로 선행 학습됩니다.
- WebLI: WebLI (웹 언어 이미지)는 공개 웹에서 빌드된 웹 규모의 다국어 이미지-텍스트 데이터 세트입니다. 다양한 WebLI 분할은 시각적 의미 이해, 객체 위치 지정, 시각적으로 위치한 텍스트 이해, 다국어 등 다양한 모델 기능을 습득하는 데 사용됩니다.
- CC3M-35L: 웹페이지에서 선별된 영어 이미지-alt_text 쌍(Sharma et al., 2018). Google Cloud Translation API를 사용하여 34개 언어로 추가 번역했습니다.
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M의 하위 집합입니다(Changpinyo et al., 2022a)를 Google Cloud Translation API를 사용하여 CC3M-35L과 동일한 34개 언어로 추가 번역했습니다.
- OpenImages: OpenImages 데이터 세트에서 수동으로 만든 규칙에 의해 생성된 감지 및 객체 인식 질문과 답변(Piergiovanni et al. 2022).
- WIT: 위키피디아에서 수집한 이미지 및 텍스트(Srinivasan et al., 2021년)에 기반한 방법론을 조정했습니다.
PaliGemma 2는 Gemma 2를 기반으로 하며, Gemma 2 모델 카드에서 Gemma 2의 선행 학습 데이터 세트에 관한 정보를 확인할 수 있습니다.
데이터 책임 필터링
안전하고 책임감 있는 데이터에 관해 PaliGemma 2를 학습시키기 위해 다음 필터가 WebLI에 적용됩니다.
- 음란 이미지 필터링: 이 필터는 음란물로 간주되는 이미지를 삭제합니다.
- 텍스트 안전 필터링: 안전하지 않은 텍스트와 함께 표시되는 이미지를 식별하고 필터링합니다. 안전하지 않은 텍스트는 아동 성적 학대 이미지 (CSAI), 포르노, 저속한 표현을 포함하거나 이러한 주제에 관한 것으로 간주되거나 기타 불쾌감을 주는 텍스트를 말합니다.
- 텍스트 유해성 필터링: Perspective API를 사용하여 모욕적이거나 외설적이거나 증오심을 표현하거나 유해하다고 간주되는 텍스트와 함께 표시되는 이미지를 식별하고 필터링합니다.
- 텍스트 개인 정보 필터링: Google은 개인의 개인 정보를 보호하기 위해 Cloud Data Loss Prevention(DLP) API를 사용하여 특정 개인 정보 및 기타 민감한 정보를 필터링했습니다. 주민등록번호 및 기타 민감한 정보 유형과 같은 식별자가 삭제되었습니다.
- 추가 방법: Google 정책 및 관행에 따라 콘텐츠 품질 및 안전성을 기반으로 필터링합니다.
구현 정보
하드웨어
PaliGemma 2는 최신 세대의 Tensor Processing Unit(TPU) 하드웨어 (TPUv5e)를 사용하여 학습되었습니다.
소프트웨어
JAX, Flax, TFDS, big_vision
를 사용하여 학습이 완료되었습니다.
JAX를 사용하면 연구원이 TPU를 비롯한 최신 하드웨어를 활용하여 대규모 모델을 더 빠르고 효율적으로 학습할 수 있습니다.
TFDS는 데이터 세트에 액세스하는 데 사용되고 Flax는 모델 아키텍처에 사용됩니다. PaliGemma 2 미세 조정 코드 및 추론 코드는 big_vision
GitHub 저장소에 출시됩니다.
평가 정보
벤치마크 결과
PaliGemma 2를 다양한 학술 작업에 적용할 수 있는지 확인하기 위해 각 작업에서 사전 학습된 모델을 미세 조정합니다. Google에서는 해상도 증가의 이점을 누리는 태스크에 대한 인상을 제공하기 위해 다양한 해상도에서의 결과를 보고합니다. 중요한 점은 이러한 작업이나 데이터 세트가 선행 학습 데이터 혼합물의 일부가 아니며 이미지가 웹 스케일 선행 학습 데이터에서 명시적으로 삭제된다는 것입니다.
모델 해상도 및 크기별 PaliGemma 2 결과
벤치마크 | 224-3B | 224-10B | 224~28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74.7 | 83.1 | 83.2 | 76.0 | 84.4 | 84.6 |
AOKVQA-DA (val) | 64.2 | 68.9 | 70.2 | 67.9 | 70.8 | 71.2 |
AOKVQA-MC (val) | 79.7 | 83.7 | 84.7 | 82.5 | 85.9 | 87.0 |
ActivityNet-CAP | 34.2 | 35.9 | - | - | - | - |
ActivityNet-QA | 51.3 | 53.2 | - | - | - | - |
COCO-35L (avg34) | 113.9 | 115.8 | 116.5 | 115.8 | 117.2 | 117.2 |
COCO-35L (영어) | 138.4 | 140.8 | 142.4 | 140.4 | 142.4 | 142.3 |
COCOcap | 141.3 | 143.7 | 144.0 | 143.4 | 145.0 | 145.2 |
ChartQA (평균) | 74.4 | 74.2 | 68.9 | 89.2 | 90.1 | 85.1 |
ChartQA (인간) | 42.0 | 48.4 | 46.8 | 54.0 | 66.4 | 61.3 |
CountBenchQA | 81.0 | 84.0 | 86.4 | 82.0 | 85.3 | 87.4 |
DocVQA (val) | 39.9 | 43.9 | 44.9 | 73.6 | 76.6 | 76.1 |
GQA | 66.2 | 67.2 | 67.3 | 68.1 | 68.3 | 68.3 |
InfoVQA (val) | 25.2 | 33.6 | 36.4 | 37.5 | 47.8 | 46.7 |
MARVL (avg5) | 83.5 | 89.5 | 90.6 | 82.7 | 89.1 | 89.7 |
MSRVTT-CAP | 68.5 | 72.1 | - | - | - | - |
MSRVTT-QA | 50.5 | 51.9 | - | - | - | - |
MSVD-QA | 61.1 | 62.5 | - | - | - | - |
NLVR2 | 91.4 | 93.9 | 94.2 | 91.6 | 93.7 | 94.1 |
NoCaps | 123.1 | 126.3 | 127.1 | 123.5 | 126.9 | 127.0 |
OCR-VQA | 73.4 | 74.7 | 75.3 | 75.7 | 76.3 | 76.6 |
OKVQA | 64.2 | 68.0 | 71.2 | 64.1 | 68.6 | 70.6 |
RSVQA-hr (테스트) | 92.7 | 92.6 | 92.7 | 92.8 | 92.8 | 92.8 |
RSVQA-hr (test2) | 90.9 | 90.8 | 90.9 | 90.7 | 90.7 | 90.8 |
RSVQA-lr | 93.0 | 92.8 | 93.5 | 92.7 | 93.1 | 93.7 |
RefCOCO (testA) | 75.7 | 77.2 | 76.8 | 78.6 | 79.7 | 79.3 |
RefCOCO (testB) | 71.0 | 74.2 | 73.9 | 73.5 | 76.2 | 74.8 |
RefCOCO (val) | 73.4 | 75.9 | 75.0 | 76.3 | 78.2 | 77.3 |
RefCOCO+ (testA) | 72.7 | 74.7 | 73.6 | 76.1 | 77.7 | 76.6 |
RefCOCO+ (testB) | 64.2 | 68.4 | 67.1 | 67.0 | 71.1 | 68.6 |
RefCOCO+ (val) | 68.6 | 72.0 | 70.3 | 72.1 | 74.4 | 72.8 |
RefCOCOg (테스트) | 69.0 | 71.9 | 70.7 | 72.7 | 74.8 | 73.7 |
RefCOCOg (val) | 68.3 | 71.4 | 70.5 | 72.3 | 74.4 | 73.0 |
ST-VQA (val) | 61.9 | 64.3 | 65.1 | 80.5 | 82.0 | 81.8 |
SciCap | 165.1 | 159.5 | 156.9 | 183.3 | 177.2 | 172.7 |
ScienceQA | 96.1 | 98.2 | 98.2 | 96.2 | 98.5 | 98.6 |
Screen2Words | 113.3 | 117.8 | 122.8 | 114.0 | 119.1 | 123.4 |
TallyQA (복잡함) | 70.3 | 73.4 | 74.2 | 73.6 | 76.7 | 76.8 |
TallyQA (간단한 버전) | 81.8 | 83.2 | 83.4 | 85.3 | 86.2 | 85.7 |
TextCaps | 127.5 | 137.9 | 139.9 | 152.1 | 157.7 | 153.6 |
TextVQA (val) | 59.6 | 64.0 | 64.7 | 75.2 | 76.6 | 76.2 |
VATEX | 80.8 | 82.7 | - | - | - | - |
VQAv2 (minival) | 83.0 | 84.3 | 84.5 | 84.8 | 85.8 | 85.8 |
VizWizVQA (val) | 76.4 | 78.1 | 78.7 | 77.5 | 78.6 | 78.9 |
WidgetCap | 138.1 | 139.8 | 138.8 | 151.4 | 151.9 | 148.9 |
XM3600 (평균 35) | 42.8 | 44.5 | 45.2 | 43.2 | 44.6 | 45.2 |
XM3600 (en) | 79.8 | 80.7 | 81.0 | 80.3 | 81.5 | 81.0 |
xGQA (평균7) | 58.6 | 61.4 | 61.1 | 60.4 | 62.6 | 62.1 |
추가 업계 기준치
모델 | 정밀도 | 재현율 | F1 |
---|---|---|---|
PaliGemma 2 3B | 81.88 | 70.73 | 75.9 |
모델 | 정밀도 | 재현율 | F1 |
---|---|---|---|
PaliGemma 2 3B | 73.8. | 74.54 | 74.17 |
모델 | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99.18 | 98.94 | 99.43 | 99.21 |
모델 | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97.6 | 97.31 | 97.99 | 97.84 |
모델 | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1.6 | 6.7 | 2.3 |
- PaliGemma 2 3B, 전체 일치: 94.8
모델 | avg#char | avg#sent | NES % |
---|---|---|---|
PaliGemma 2 3B | 529 | 7.74 | 28.42 |
PaliGemma 2 10B | 521 | 7.45 | 20.27 |
- avg#char: 평균 문자 수
- avg#sent: 평균 문장 수
- NES: 귀결되지 않는 문장
모델 | CIDEr | BLEU4 | Rouge-L | RadGraph F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19.9% | 14.6% | 31.92% | 28.8% |
PaliGemma 2 10B | 17.4% | 15% | 32.41% | 29.5% |
모델 | VSR 제로샷 분할 (테스트) | VSR 무작위 분할 (테스트) |
---|---|---|
PaliGemma 2 3B | 0.75 | 0.82 |
PaliGemma 2 10B | 0.80 | 0.87 |
윤리 및 안전
평가 접근 방식
YouTube의 평가 방법에는 다음과 같은 관련 콘텐츠 정책 전반에서 구조화된 윤리 및 안전 평가가 포함됩니다.
- 아동 안전, 콘텐츠 안전, 표현의 피해를 다루는 프롬프트에 대한 사람의 평가 평가 접근 방식에 관한 자세한 내용은 Gemma 모델 카드를 참고하세요. 이미지 캡셔닝 및 시각적 질문 응답 설정이 포함되어 있습니다.
- 이미지-텍스트 벤치마크 평가: FairFace 데이터 세트 (Karkkainen et al., 2021년)에 기반한 방법론을 조정했습니다.
평가 결과
- 윤리 및 안전 평가의 인간 평가 결과가 아동 안전, 콘텐츠 안전, 표현적 해악과 같은 카테고리의 내부 정책을 충족하기 위한 허용 가능한 기준점 내에 있습니다.
- YouTube는 강력한 내부 평가 외에도 Perspective API(기준점 0.8)를 사용하여 FairFace 데이터 세트에서 가져온 이미지의 생성된 자막에서 악의성, 욕설, 기타 잠재적 문제를 측정합니다. Google은 인식된 성별, 민족, 연령 속성별로 하위 그룹에서 관찰된 최대값과 중앙값을 보고합니다.
측정항목 | 인식된 성별 | 민족 | 연령대 | ||||||
---|---|---|---|---|---|---|---|---|---|
모델 크기 | 30억 회 | 100억 | 280억 | 30억 회 | 100억 | 280억 | 30억 회 | 100억 | 280억 |
최대 | |||||||||
독성 | 0.14% | 0.15% | 0.19% | 0.29% | 0.39% | 0.39% | 0.26% | 0.18% | 0.32% |
인신 공격 | 0.04% | 0.02% | 0.02% | 0.13% | 0.06% | 0.06% | 0.06% | 0.03% | 0.06% |
모욕 | 0.17% | 0.25% | 0.17% | 0.37% | 0.52% | 0.52% | 0.27% | 0.39% | 0.24% |
위협 | 0.55% | 0.43% | 0.57% | 0.83% | 0.48% | 0.48% | 0.64% | 0.43% | 0.64% |
욕설 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
중앙값 | |||||||||
독성 | 0.13% | 0.10% | 0.18% | 0.07% | 0.07% | 0.14% | 0.12% | 0.08% | 0.12% |
인신 공격 | 0.02% | 0.01% | 0.02% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
모욕 | 0.15% | 0.23% | 0.14% | 0.14% | 0.17% | 0.13% | 0.09% | 0.18% | 0.16% |
위협 | 0.35% | 0.27% | 0.41% | 0.28% | 0.19% | 0.42% | 0.27% | 0.31% | 0.40% |
욕설 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
사용 및 제한사항
사용 목적
개방형 비전 언어 모델 (VLM)은 다양한 산업과 도메인에서 광범위하게 사용됩니다. 다음은 가능한 사용 사례 목록이며, 이 목록에 포함되지 않은 사용 사례도 있습니다. 이 목록의 목적은 모델 제작자가 모델 학습 및 개발의 일부로 고려한 가능한 사용 사례에 관한 컨텍스트 정보를 제공하는 것입니다. Gemma 모델의 금지된 사용은 Gemma 금지된 사용 정책에 설명되어 있습니다.
특정 시각적 언어 작업에 대해 미세 조정:
- 선행 학습된 모델은 이미지 캡션, 짧은 동영상 캡션, 시각적 질문 답변, 텍스트 읽기, 객체 감지, 객체 세분화와 같은 다양한 시각적 언어 작업에서 미세 조정할 수 있습니다.
- 사전 학습된 모델은 원격 감지 질문 응답, 시각 장애인의 시각적 질문, 과학 질문 응답, UI 요소 기능 설명과 같은 특정 도메인에 맞게 미세 조정할 수 있습니다.
- 선행 학습된 모델은 경계 상자나 세분화 마스크와 같이 텍스트가 아닌 출력이 있는 태스크에 맞게 미세 조정할 수 있습니다.
비전-언어 연구:
- 사전 학습된 모델과 미세 조정된 모델은 연구원이 VLM 기법을 실험하고, 알고리즘을 개발하고, 이 분야의 발전에 기여할 수 있는 기반이 될 수 있습니다.
윤리적 고려사항 및 위험
비전 언어 모델 (VLM)의 개발은 여러 윤리적 문제를 야기합니다. Google은 개방형 모델을 만들 때 다음 사항을 신중하게 고려했습니다.
- 편향 및 공정성
- 대규모 실제 이미지-텍스트 데이터로 학습된 VLM은 학습 자료에 삽입된 사회문화적 편향을 반영할 수 있습니다. 이러한 모델은 신중하게 검토되었으며, 입력 데이터 사전 처리가 설명되고 후속 평가가 이 카드에 보고되었습니다.
- 잘못된 정보 및 오용
- VLM은 잘못 사용하여 허위, 혼동을 야기하거나 유해한 텍스트를 생성할 수 있습니다.
- 모델을 책임감 있게 사용하는 방법에 관한 가이드라인은 책임감 있는 생성형 AI 툴킷을 참고하세요.
- 투명성 및 책임감
- 이 모델 카드는 모델의 아키텍처, 기능, 제한사항, 평가 프로세스에 관한 세부정보를 요약합니다.
- 책임감 있게 개발된 개방형 모델은 AI 생태계 전반의 개발자와 연구원이 VLM 기술에 액세스할 수 있도록 함으로써 혁신을 공유할 수 있는 기회를 제공합니다.
식별된 위험 및 완화 조치:
- 편향 지속: 모델 학습, 미세 조정, 기타 사용 사례 중에 지속적인 모니터링(평가 측정항목, 사람 검토 사용)과 편향 제거 기법을 탐색하는 것이 좋습니다.
- 유해 콘텐츠 생성: 콘텐츠 안전을 위한 메커니즘과 가이드라인이 필수적입니다. 개발자는 각 제품 정책 및 애플리케이션 사용 사례에 따라 주의해서 적절한 콘텐츠 안전 보호 장치를 구현하는 것이 좋습니다.
- 악의적인 목적으로 오용: 기술적 제한사항과 개발자 및 최종 사용자 교육을 통해 LLM의 악의적인 적용을 완화할 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스와 신고 메커니즘이 제공됩니다. 책임감 있는 생성형 AI 툴킷을 참고하세요. Gemma 모델의 금지된 사용은 Gemma 금지된 사용 정책에 설명되어 있습니다.
- 개인 정보 침해: 특정 개인 정보 및 민감한 정보를 삭제하도록 필터링된 데이터를 사용하여 모델을 학습했습니다. 개발자는 개인 정보 보호 기술을 사용하여 개인 정보 보호 규정을 준수하는 것이 좋습니다.
제한사항
- 기본 Gemma 2 모델에서 상속된 대부분의 제한사항이 계속 적용됩니다.
- VLM은 명확한 프롬프트와 안내로 구성할 수 있는 작업에 더 적합합니다. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
- 자연어는 본질적으로 복잡합니다. VLM은 미묘한 뉘앙스, 빈정거림, 비유적인 표현을 파악하는 데 어려움을 겪을 수 있습니다.
- VLM은 학습 데이터 세트에서 학습한 정보를 기반으로 응답을 생성하지만 기술 자료는 아닙니다. 잘못되거나 오래된 사실 진술을 생성할 수 있습니다.
- VLM은 언어와 이미지의 통계적 패턴을 사용합니다. 특정 상황에서 상식적인 추론을 적용하는 능력이 부족할 수 있습니다.
- PaliGemma 2는 무엇보다도 특수한 태스크에 맞게 미세 조정하기 위한 일반적인 선행 학습된 모델로 설계되었습니다. 따라서 '즉시 사용' 또는 '제로 샷' 성능이 범용 사용을 위해 특별히 설계된 모델보다 뒤처질 수 있습니다.
- PaliGemma 2는 멀티턴 챗봇이 아닙니다. 이미지와 텍스트를 한 번에 입력하도록 설계되었습니다.