PaliGemma 2 模型資訊卡

模型頁面: PaliGemma

資源和技術文件:

使用條款: 條款

作者:Google

款式資訊

模型摘要

PaliGemma 2 是 PaliGemma 視覺語言模型 (VLM) 的更新版本,整合了 Gemma 2 模型的功能。PaliGemma 系列模型的靈感來自 PaLI-3,並以 SigLIP 視覺模型和 Gemma 2 語言模型等開放元件為基礎。這項服務會同時將圖片和文字做為輸入內容,並生成文字做為輸出內容,支援多種語言。這項服務可在多種視覺語言任務中提供一流的精細調整效能,例如圖像和短片字幕、圖像問題回答、文字閱讀、物件偵測和物件分割。

模型架構

PaliGemma 2 由 Transformer 解碼器Vision Transformer 圖像編碼器組成。文字解碼器會從 Gemma 2 的 2B、9B 和 27B 參數大小進行初始化。圖片編碼器會從 SigLIP-So400m/14 進行初始化。與原始 PaliGemma 模型類似,PaliGemma 2 也是按照 PaLI-3 配方進行訓練。

輸入和輸出

  • 輸入內容:圖片和文字字串,例如圖片說明提示或問題。
  • 輸出:根據輸入內容產生的文字,例如圖片的標題、問題的答案、物件邊界框座標清單或區隔代碼字詞。

引用內容

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

模型資料

預先訓練資料集

PaliGemma 2 是使用下列資料集的混合版本進行預先訓練:

PaliGemma 2 是以 Gemma 2 為基礎,您可以在 Gemma 2 模型資訊卡中,查看 Gemma 2 預先訓練資料集的相關資訊。

資料責任篩選

下列篩選器會套用至 WebLI,目的是讓 PaliGemma 2 訓練安全且負責任的資料:

  • 色情圖片篩選:這項篩選條件會移除系統判定為色情圖片的圖片。
  • 文字安全篩選:我們會找出與不安全文字搭配的圖片,並加以篩除。不安全文字是指任何文字,如果 Google 判定其含有或涉及兒童性虐待圖像 (CSAI)、色情內容、粗俗字眼,或其他令人反感的內容,就屬於不安全文字。
  • 文字惡意指數篩選:我們進一步使用 Perspective API 來識別並篩除與文字搭配的圖片,如果文字含有侮辱、猥褻、仇恨或其他惡意內容,就會篩除。
  • 文字個人資訊篩選:我們使用 Cloud Data Loss Prevention (DLP) API 篩選特定個人資訊和其他私密資料,以保護個人隱私。我們已移除身分證字號和其他機密資訊類型等識別資訊。
  • 其他方法:根據政策和做法,依內容品質和安全性進行篩選。

實作資訊

硬體

PaliGemma 2 是使用最新一代 Tensor Processing Unit (TPU) 硬體 (TPUv5e) 訓練而成。

軟體

訓練作業是使用 JAXFlaxTFDSbig_vision 完成。

JAX 可讓研究人員充分利用新一代硬體 (包括 TPU),以更快速、更有效率的方式訓練大型模型。

TFDS 用於存取資料集,Flax 則用於模型架構。PaliGemma 2 精修程式碼和推論程式碼已發布至 big_vision GitHub 存放區。

評估作業資訊

基準測試結果

為了驗證 PaliGemma 2 可否轉移至各種學術工作,我們針對每項工作微調預先訓練的模型。我們會針對不同解析度回報結果,讓您瞭解哪些工作可從提高解析度中受益。重要的是,這些任務或資料集都不是預先訓練資料組合的一部分,且系統會明確從網頁規模的預先訓練資料中移除這些圖片。

依模型解析度和大小比較 PaliGemma 2 的結果

基準 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA (val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (英文) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA (平均值) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA (人工) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA (val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (avg5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr (測試) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (test2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (testA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (testB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (testB) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+ (val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg (測試) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (複雜) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (簡易版) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2 (minival) 83.0 84.3 84.5 84.8 85.8 85.8
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (avg35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (英文) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA (avg7) 58.6 61.4 61.1 60.4 62.6 62.1

其他基準

ICDAR 2015 Incidental

型號 精確度 喚回度 F1
PaliGemma 2 3B 81.88 70.73 75.9

Total-Text

型號 精確度 喚回度 F1
PaliGemma 2 3B 73.8。 74.54 74.17

FinTabNet

型號 S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98.94 99.43 99.21

PubTabNet

型號 S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

GrandStaff

型號 CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B,完全相符:94.8

DOCCI

型號 avg#char avg#sent NES %
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char:平均字元數
  • avg#sent:平均句子數
  • NES:非推論句

MIMIC-CXR

型號 CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19.9% 14.6% 31.92% 28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

視覺空間推理能力

型號 VSR 零樣本分割 (測試) VSR 隨機分組 (測試)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

道德與安全

評估方法

我們的評估方法包括在相關內容政策中進行結構化倫理和安全性評估,包括:

  • 針對兒童安全、內容安全性和表徵性傷害等提示進行人為評估。如要進一步瞭解評估方法,請參閱 Gemma 模型資訊卡,但請注意,這裡的設定是針對圖像說明和視覺問答。
  • 圖像轉文字基準評估:以相關學術資料集為基準,例如 FairFace 資料集 (Karkkainen 等人,2021 年)。

評估結果

  • 倫理和安全性評估的人工評估結果符合兒童安全、內容安全和表徵性傷害等類別的內部政策,且符合可接受的門檻。
  • 除了嚴謹的內部評估之外,我們也使用 Perspective API (門檻為 0.8),評估從 FairFace 資料集產生的圖片字幕是否含有惡意、粗俗字眼和其他潛在問題。我們會針對每個所感知的性別、種族和年齡屬性,針對各個子群組回報觀察到的最大值和中位數。
指標 感知性別 族群 年齡層
模型大小 30 億次 10B 28B 30 億次 10B 28B 30 億次 10B 28B
上限
毒性 0.14% 0.15% 0.19% 0.29% 0.39% 0.39% 0.26% 0.18% 0.32%
身分攻擊 0.04% 0.02% 0.02% 0.13% 0.06% 0.06% 0.06% 0.03% 0.06%
侮辱內容 0.17% 0.25% 0.17% 0.37% 0.52% 0.52% 0.27% 0.39% 0.24%
威脅 0.55% 0.43% 0.57% 0.83% 0.48% 0.48% 0.64% 0.43% 0.64%
不雅用語 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
中位數
毒性 0.13% 0.10% 0.18% 0.07% 0.07% 0.14% 0.12% 0.08% 0.12%
身分攻擊 0.02% 0.01% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
侮辱內容 0.15% 0.23% 0.14% 0.14% 0.17% 0.13% 0.09% 0.18% 0.16%
威脅 0.35% 0.27% 0.41% 0.28% 0.19% 0.42% 0.27% 0.31% 0.40%
不雅用語 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

使用方式和限制

預定用途

Open Vision 語言模型 (VLM) 的應用範圍廣泛,涵蓋各個產業和領域。以下列出可能的用途,但不包含所有用途。這份清單的目的,是提供關於可能用途的背景資訊,這些用途是模型建立者在訓練及開發模型時考量的。Gemma 使用限制政策列出 Gemma 模型的禁止用途。

針對特定視覺語言任務進行微調:

  • 預先訓練的模型可針對多種視覺語言任務進行微調,例如圖像說明、短片字幕、視覺問題回答、文字閱讀、物件偵測和物件分割。
  • 預先訓練的模型可針對特定領域進行微調,例如遠端感測問題解答、視障人士的視覺問題、科學問題解答、說明 UI 元素功能。
  • 預先訓練的模型可針對非文字輸出內容 (例如邊界框或分割遮罩) 的任務進行微調。

視覺語言研究:

  • 預先訓練的模型和精修模型可做為研究人員實驗 VLM 技術、開發演算法,並為該領域的進步做出貢獻的基礎。

倫理考量和風險

開發視覺語言模型 (VLM) 時,會引發幾項道德問題。在建立開放式模式時,我們已仔細考量以下事項:

  • 偏誤和公平性
    • 以大量現實圖像文字資料訓練的 VLM 可能會反映訓練素材中內建的社會文化偏見。這些模型經過仔細審查,並在這個資訊卡中說明輸入資料的預先處理方式,以及後續評估結果。
  • 不實資訊和濫用行為
  • 資訊公開及當責
    • 這個模型資訊卡會概略說明模型的架構、功能、限制和評估程序。
    • 我們以負責任的方式開發開放式模型,讓 AI 生態系統中的開發人員和研究人員都能使用 VLM 技術,進而分享創新成果。

已識別的風險和緩解措施:

  • 偏見持續存在:建議您在模型訓練、微調和其他用途期間,持續監控 (使用評估指標、人為審查) 並探索去偏技術。
  • 產生有害內容:內容安全機制和指南至關重要。我們建議開發人員謹慎行事,並根據特定產品政策和應用程式用途,導入適當的內容安全防護措施。
  • 用於惡意目的:技術限制和開發人員與使用者教育訓練,有助於減少 LLM 遭到惡意應用的情況。我們提供教育資源和回報機制,方便使用者檢舉濫用行為:請參閱負責任的生成式 AI 工具包Gemma 使用限制政策列出 Gemma 模型的禁止用途。
  • 違反隱私權:模型是使用經過篩選的資料訓練,以移除特定個人資訊和機密資料。我們鼓勵開發人員透過隱私權保護技術遵守隱私權法規。

限制

  • 從底層 Gemma 2 模型繼承的大部分限制仍適用:
    • 只要能以明確的提示和指示說明任務,VLM 處理起來就會更得心應手。開放式或高度複雜的工作可能會比較困難。
    • 自然語言本身就很複雜,語音轉錄機可能難以掌握細微的語氣、嘲諷或比喻語言。
    • VLM 會根據從訓練資料集中學到的資訊產生回覆,但它們並非知識庫。可能會產生錯誤或過時的事實陳述。
    • VLM 仰賴語言和圖片中的統計模式。在某些情況下,他們可能無法運用常識推理。
  • PaliGemma 2 的設計目的,首先是做為一般預先訓練模型,用於微調專門的任務。因此,其「即時」或「零樣本」的效能可能不如專為通用用途設計的模型。
  • PaliGemma 2 不是多輪對話式聊天機器人。這項功能設計用於單輪圖片和文字輸入。