PaliGemma 1 模型資訊卡

模型頁面: PaliGemma

資源和技術文件:

使用條款: 條款

作者:Google

款式資訊

模型摘要

說明

PaliGemma 是一款靈活輕巧的視覺語言模型 (VLM),靈感來自 PaLI-3,並以 SigLIP 視覺模型Gemma 語言模型等開放元件為基礎。這個模型會同時將圖片和文字做為輸入內容,並產生文字做為輸出內容,支援多種語言。這項服務的設計目的,是在多種視覺語言任務中提供同類產品中最佳的精修效能,例如圖像和短片字幕、圖像問題回答、文字閱讀、物件偵測和物件分割。

模型架構

PaliGemma 由 Transformer 解碼器Vision Transformer 圖像編碼器組成,總共包含 30 億個參數。文字解碼器會從 Gemma-2B 進行初始化。圖片編碼器會從 SigLIP-So400m/14 初始化。PaliGemma 是根據 PaLI-3 食譜進行訓練。

輸入和輸出

  • 輸入內容:圖片和文字字串,例如圖片說明提示或問題。
  • 輸出:根據輸入內容產生的文字,例如圖片的標題、問題的答案、物件邊界框座標清單或區隔代碼字詞。

引用內容

@article{
    title={PaliGemma: A versatile 3B VLM for transfer},
    author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2407.07726}
}

模型資料

預先訓練資料集

PaliGemma 是使用下列資料集的混合版本進行預先訓練:

資料責任篩選

下列篩選器會套用至 WebLI,目的是在乾淨資料上訓練 PaliGemma:

  • 色情圖片篩選:這項篩選條件會移除系統判定為色情圖片的圖片。
  • 文字安全篩選:我們會找出與不安全文字搭配的圖片,並加以篩除。不安全文字是指任何文字,如果 Google 判定其含有或涉及兒童性虐待圖像 (CSAI)、色情內容、粗俗字眼,或其他令人反感的內容,就屬於不安全文字。
  • 文字惡意指數篩選:我們進一步使用 Perspective API 來識別並篩除與文字搭配的圖片,如果文字含有侮辱、猥褻、仇恨或其他惡意內容,就會篩除。
  • 文字個人資訊篩選:我們使用 Cloud Data Loss Prevention (DLP) API 篩選特定個人資訊和其他私密資料,以保護個人隱私。移除身分證字號和其他機密資訊類型等識別資訊。
  • 其他方法:根據政策和做法,依內容品質和安全性進行篩選。

實作資訊

硬體

PaliGemma 是使用最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5e) 訓練而成。

軟體

訓練作業是使用 JAXFlaxTFDSbig_vision 完成。

JAX 可讓研究人員充分利用新一代硬體 (包括 TPU),以更快速、更有效率的方式訓練大型模型。

TFDS 用於存取資料集,Flax 則用於模型架構。PaliGemma 精修程式碼和推論程式碼已發布至 big_vision GitHub 存放區。

評估作業資訊

基準測試結果

為了驗證 PaliGemma 可轉移至各種學術工作,我們針對每項工作微調預先訓練的模型。此外,我們會使用轉移作業的混合版本訓練混合模型。我們會針對不同解析度回報結果,讓您瞭解哪些工作可從提高解析度中受益。重要的是,這些工作或資料集都不是預先訓練資料組合的一部分,且其圖片會從網頁規模的預先訓練資料中明確移除。

單一工作 (針對單一工作進行微調)

基準 (訓練集分割) 指標 (分割) pt-224 pt-448 pt-896
字幕
COCO 字幕 (訓練資料集 + 測試資料集) CIDEr (val) 141.92 144.60
NoCaps (評估 COCO 字幕轉移) CIDEr (val) 121.72 123.58
COCO-35L (火車) CIDEr 開發人員 (英文/平均值-34/平均值)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (評估 COCO-35L 轉移作業) CIDEr 開發人員 (英文/平均值-34/平均值)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (訓練) CIDEr (val) 127.48 153.94
SciCap (第一句,無子圖) (訓練+驗證) CIDEr/BLEU-4 (測試)
162.25
0.192
181.49
0.211
Screen2words (訓練+開發) CIDEr (測試) 117.57 119.59
Widget Captioning (訓練資料 + 開發人員) CIDEr (測試) 136.07 148.36
問題回答
VQAv2 (訓練資料集 + 驗證資料集) 準確度 (測試伺服器 - 標準) 83.19 85.64
MMVP (評估 VQAv2 轉移) 配對準確度 47.33 45.33
POPE (評估 VQAv2 轉移) 準確度 (隨機/熱門/惡意)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (訓練) 精確度 (val) 63.54 63.15
A-OKVQA (MC) (train+val) 準確度 (測試伺服器) 76.37 76.90
A-OKVQA (DA) (train+val) 準確度 (測試伺服器) 61.85 63.22
GQA (train_balanced+val_balanced) 準確度 (testdev 平衡) 65.61 67.03
xGQA (GQA 轉移評估) 平均精確度 (bn、de、en、id、ko、pt、ru、zh) 58.37 59.07
NLVR2 (訓練資料集 + 開發資料集) 準確度 (測試) 90.02 88.93
MaRVL (NLVR2 轉移的評估) 平均準確度 (測試) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (訓練) 準確度 (測試) 72.12 73.28
ScienceQA (Img 子集,無 CoT) (訓練資料集+驗證資料集) 準確度 (測試) 95.39 95.93
RSVQA-LR (非數值) (訓練資料集+驗證資料集) 平均準確度 (測試) 92.65 93.11
RSVQA-HR (非數值) (訓練資料集+驗證資料集) 平均準確度 (test/test2)
92.61
90.58
92.79
90.54
ChartQA (人類+擴增) x(訓練資料集+驗證資料集) 平均寬鬆準確度 (test_human、test_aug) 57.08 71.36
VizWiz VQA (訓練資料集 + 驗證資料集) 準確度 (測試伺服器 - 標準) 73.7 75.52
TallyQA (訓練) 準確度 (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (train+val) 準確度 (測試) 72.32 74.61 74.93
TextVQA (train+val) 準確度 (測試伺服器 - 標準) 55.47 73.15 76.48
DocVQA (訓練資料集 + 驗證資料集) ANLS (測試伺服器) 43.74 78.02 84.77
資訊圖表 VQA (訓練+驗證) ANLS (測試伺服器) 28.46 40.47 47.75
SceneText VQA (train+val) ANLS (測試伺服器) 63.29 81.82 84.40
區隔
RefCOCO (結合 refcoco、refcoco+、refcocog,不含 val 和測試圖片) MIoU (驗證) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
影片工作 (字幕/品質評估)
MSR-VTT (字幕) CIDEr (測試) 70.54
MSR-VTT (品質確保) 準確度 (測試) 50.09
ActivityNet (字幕) CIDEr (測試) 34.62
ActivityNet (品質確保) 準確度 (測試) 50.78
VATEX (字幕) CIDEr (測試) 79.73
MSVD (QA) 準確度 (測試) 60.22

混合模型 (針對混合轉移作業進行微調)

基準 指標 (分割) mix-224 mix-448
MMVP 配對準確度 46.00 45.33
POPE 準確度 (隨機/熱門/惡意)
88.00
86.63
85.67
89.37
88.40
87.47

道德與安全

評估方法

我們的評估方法包括結構化評估,以及針對相關內容政策進行內部紅隊測試。紅隊評估是由多個不同團隊進行,每個團隊都有不同的目標和人工評估指標。這些模型是根據與倫理和安全相關的多個不同類別進行評估,包括:

  • 針對兒童安全、內容安全和表徵性傷害等提示進行人為評估。如要進一步瞭解評估方法,請參閱 Gemma 模型資訊卡,其中包含圖像說明和視覺問答設定。
  • 圖像轉文字基準評估:以相關學術資料集為基準,例如 FairFace 資料集 (Karkkainen 等人,2021 年)。

評估結果

  • 倫理和安全性評估的人工評估結果符合兒童安全、內容安全和表徵性傷害等類別的內部政策,且符合可接受的門檻。
  • 除了嚴謹的內部評估之外,我們也使用 Perspective API (門檻為 0.8),評估從 FairFace 資料集產生的圖片字幕是否含有惡意、粗俗字眼和其他潛在問題。我們會針對每個所感知的性別、種族和年齡屬性,針對各個子群組回報觀察到的最大值和中位數。
指標 感知性別 族群 年齡層
上限 中位數 上限 中位數 上限 中位數
毒性 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
身分攻擊 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
侮辱內容 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
威脅 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
不雅用語 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

使用方式和限制

預定用途

Open Vision 語言模型 (VLM) 的應用範圍廣泛,涵蓋各個產業和領域。以下列出可能的用途,但不包含所有用途。這份清單的目的,是提供關於可能用途的背景資訊,這些用途是模型建立者在模型訓練和開發過程中考慮的。Gemma 使用限制政策列出 Gemma 模型的禁止用途。

針對特定視覺語言任務進行微調:

  • 預先訓練的模型可針對多種視覺語言任務進行微調,例如圖像說明、短片字幕、視覺問題回答、文字閱讀、物件偵測和物件分割。
  • 預先訓練的模型可針對特定領域進行微調,例如遠端感測問題解答、視障人士的視覺問題、科學問題解答、說明 UI 元素功能。
  • 預先訓練的模型可針對非文字輸出內容 (例如邊界框或分割遮罩) 的任務進行微調。

視覺語言研究:

  • 預先訓練的模型和精修模型可做為研究人員實驗 VLM 技術、開發演算法,並為該領域的進步做出貢獻的基礎。

倫理考量和風險

開發視覺語言模型 (VLM) 時,會引發幾項道德問題。在建立開放式模式時,我們已仔細考量以下事項:

  • 偏誤與公平性
    • 以大量現實圖像文字資料訓練的 VLM 可能會反映訓練素材中內建的社會文化偏見。這些模型經過仔細審查,並在這個資訊卡中說明輸入資料的預先處理方式,以及後續評估結果。
  • 不實資訊和濫用行為
  • 資訊公開及當責
    • 這個模型資訊卡會概略說明模型的架構、功能、限制和評估程序。
    • 我們以負責任的方式開發開放式模型,讓 AI 生態系統中的開發人員和研究人員都能使用 VLM 技術,進而分享創新成果。

已識別的風險和緩解措施:

  • 偏見持續存在:建議您在模型訓練、微調和其他用途期間,持續監控 (使用評估指標、人為審查) 並探索去偏技術。
  • 產生有害內容:內容安全機制和指南至關重要。我們建議開發人員謹慎行事,並根據特定產品政策和應用程式用途,實施適當的內容安全防護措施。
  • 用於惡意目的:技術限制和開發人員與使用者教育訓練,有助於減少 LLM 遭到惡意應用的情況。我們提供教育資源和回報機制,方便使用者檢舉濫用行為:請參閱負責任的生成式 AI 工具包Gemma 使用限制政策列出 Gemma 模型的禁止用途。
  • 違反隱私權:模型是使用經過篩選的資料訓練,以移除特定個人資訊和機密資料。我們鼓勵開發人員採用隱私權保護技術,遵守隱私權法規。

限制

  • 從基礎 Gemma 模型繼承的大部分限制仍會套用:
    • 只要能透過明確的提示和指示進行設定,VLM 就能更有效地完成任務。開放式或高度複雜的工作可能會很困難。
    • 自然語言本身就很複雜,視覺語言模型可能難以掌握細微差異、嘲諷或比喻語言。
    • VLM 會根據從訓練資料集中學到的資訊產生回覆,但它們並非知識庫。可能會產生錯誤或過時的事實陳述。
    • VLM 仰賴語言和圖片中的統計模式。在某些情況下,他們可能無法運用常識推理。
  • PaliGemma 的設計目的,首先是做為一般預先訓練模型,用於微調專門任務。因此,其「開箱即用」或「零樣本」效能可能會落後於專為通用用途設計的模型。
  • PaliGemma 不是多輪對話式聊天機器人。這項功能設計用於單輪圖片和文字輸入。