PaliGemma 模型資訊卡

模型頁面: PaliGemma

資源和技術說明文件:

使用條款: 條款

作者:Google

款式資訊

模型摘要

說明

PaliGemma 是多功能且輕量的視覺語言模型 (VLM),以 PaLI-3 為靈感來源,並以 SigLIP 視覺模型Gemma 語言模型等開放元件為基礎。該工具會將圖片和文字做為輸入內容,並產生文字做為輸出,且支援多種語言。這個程式庫可提供領先業界的微調效能,用於處理各種視覺語言工作,例如圖片和影片、短影片說明文字、視覺問題回答、文字讀取、物件偵測和物件區隔。

模型架構

PaliGemma 是 Transformer 解碼器Vision Transformer 圖片編碼器的組合,總共有 30 億個參數。文字解碼器是從 Gemma-2B 初始化。圖片編碼器是從 SigLIP-So400m/14 初始化。PaliGemma 按照 PaLI-3 方案進行訓練。

輸入和輸出

  • 輸入:圖片和文字字串,例如為圖片建立說明文字的提示或問題。
  • 輸出:根據輸入內容產生的文字,例如圖片說明文字、問題答案、物件定界框座標清單或區隔程式碼字詞。

模型資料

預先訓練資料集

PaliGemma 會使用下列資料集組合預先訓練:

資料責任篩選

下列篩選器會套用至 WebLI,以在乾淨的資料上訓練 PaliGemma:

  • 色情圖片篩選:這個篩選器會移除被視為色情性質的圖片。
  • 文字安全篩選:系統會找出與不安全的文字配對的圖片。不安全的文字是指任何經認定含有或涉及 CSAI、色情、粗俗或其他令人反感的文字。
  • 文字惡意程度篩選:我們會進一步使用 Perspective API 來識別並篩除含有侮辱、猥褻、仇恨或其他惡意內容的圖片。
  • 文字個人資訊篩選:我們使用 Cloud Data Loss Prevention (DLP) API 來篩選特定個人資訊和其他機密資料,以保護個人隱私。已移除識別證件 (例如身分證字號) 和其他機密資訊類型
  • 其他方法:根據 Google 政策和做法,根據內容品質和安全性進行篩選。

導入作業資訊

硬體

PaliGemma 使用最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5e) 進行訓練。

軟體

訓練是使用 JAXFlaxTFDSbig_vision 完成。

JAX 可讓研究人員利用 TPU 等最新一代的硬體,以更快、更有效率的方式訓練大型模型。

TFDS 可用來存取資料集,而 Flax 則用於模型架構。PaliGemma 微調程式碼和推論程式碼已發布到 big_vision GitHub 存放區。

評估作業資訊

基準測試結果

為了驗證 PaliGemma 可以移轉到各種學術工作,我們會微調每項工作上的預先訓練模型。此外,我們也會搭配轉移工作來訓練混合模型。我們會回報不同解析度的結果,讓您看出哪些工作可提高解析度。重要的是,這些工作或資料集均不包含預先訓練的資料混合,且其圖片會明確從網路規模的預先訓練資料中移除。

單一工作 (微調單一工作)

基準 (訓練分割) 指標 (分割) pt-224 pt-448 pt-896
字幕
COCO 字幕 (train+restval) CIDEr (val) 歐元 1,4460 次
NoCaps (COCO 字幕傳輸的評估) CIDEr (val) 1,218 萬 1,235 萬
COCO-35L (訓練) CIDEr 開發 (平均/平均 34/平均值)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (COCO-35L 轉乘的評估值) CIDEr 開發 (平均/平均 34/平均值)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (訓練) CIDEr (val) 1,27.48 人 歐元
SciCap (第一個句子,無次假) (train+val) CIDEr/BLEU-4 (測試)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDEr (測試) 117.57 歐元
小工具說明文字 (train+dev) CIDEr (測試) 136.07 1,48.36
問題回答
VQAv2 (訓練+驗證) 準確度 (測試伺服器 - std) 83.19 85.64
MMVP (VQAv2 轉移的 Eval) 配對準確率 47.33 45.33
POPE (VQAv2 傳輸的 Eval) 準確度 (隨機/熱門/對抗)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (訓練) 準確率 (val) 63.54 萬 63.15
A-OKVQA (MC) (train+val) 準確度 (測試伺服器) 76.37 歐元
A-OKVQA (DA) (train+val) 準確度 (測試伺服器) 6,185 萬 63.22
GQA (train_balanced+val_balanced) 準確度 (平衡測試開發) 65.61 67.03
xGQA (GQA 轉移的評估) 平均準確率 (bn、de、en、id、ko、pt、ru、zh) 58.37 59.07
NLVR2 (train+dev) 準確率 (測試) 90.02 美元 88.93
MaRVL (NLVR2 轉移評估) 平均準確度 (測試) (id、sw、ta、tr、zh) 80.57 76.78
AI2D (訓練) 準確率 (測試) 72.12 73.28 美元
ScienceQA (Img 子集,無 CoT) (train+val) 準確率 (測試) 歐元 歐元
RSVQA-LR (非數字) (train+val) 平均準確率 (測試) 92.65 93.11
RSVQA-HR (非數字) (train+val) 平均準確率 (測試/測試 2)
92.61
90.58
92.79
90.54
ChartQA (Human+aug)x(train+val) 平均準確率 (test_human、test_aug) 57.08 71:36
VizWiz VQA (train+val) 準確度 (測試伺服器 - std) 73.7 75.52
TallyQA (訓練) 準確度 (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (train+val) 準確率 (測試) 72.32 美元 74.61 74.93
TextVQA (train+val) 準確度 (測試伺服器 - std) 55:47 73.15 76.48
DocVQA (train+val) ANLS (測試伺服器) 43.74 78.02 84.77
Infographic VQA (train+val) ANLS (測試伺服器) 28.46 4,047 萬 47.75
SceneText VQA (train+val) ANLS (測試伺服器) 63.29 美元 81.82 84.40
區隔
RefCOCO (合併 Refcoco、refcoco+、refcog 不包括 val 和測試映像檔) MIoU (驗證) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
影片任務 (字幕/品質確保)
MSR-VTT (字幕) CIDEr (測試) 70.54 美元
MSR-VTT (品質確保) 準確率 (測試) 50.09 美元
ActivityNet (字幕) CIDEr (測試) 34.62
ActivityNet (QA) 準確率 (測試) 50.78 美元
VATEX (說明文字) CIDEr (測試) 79.73
MSVD (品質確保) 準確率 (測試) 60.22

混合模型 (微調轉移工作組合)

Benchmark 指標 (分割) mix-224 mix-448
MMVP 配對準確率 46.00 美元 45.33
流行音樂 準確度 (隨機/熱門/對抗)
88.00
86.63
85.67
89.37
88.40
87.47

倫理和安全

評估方法

我們的評估方法包括結構化評估,以及針對相關內容政策的內部紅隊測試。紅隊是由多個不同團隊執行,每個團隊都有不同的目標和人工評估指標。我們根據多個與倫理和安全相關的類別來評估這些模型,包括:

  • 針對與兒童安全、內容安全和陳述傷害相關的提示進行人工評估。請參閱 Gemma 模型資訊卡以進一步瞭解評估方法,除此之外,還有圖片說明文字和圖像問題回答設定。
  • 圖片轉文字基準評估:根據 FairFace Dataset 等相關學術資料集進行基準評估 (Karkkainen 等人,2021 年)。

評估結果

  • 我們對倫理與安全評估的人工評估結果,未達到會議內部政策規定的可接受門檻。針對兒童安全、內容安全和代表性危害等類別
  • 除了強大的內部評估之外,我們也使用 Perspective API (門檻為 0.8) 來針對來自 FairFace 資料集的圖片,評估其產生字幕中的惡意程度、不雅用語和其他潛在問題。我們會針對各個發現的性別、族裔和年齡屬性,回報各個子群組觀察到的最大和中位數值。
指標 感知性別 族群 年齡層
上限 中位數 上限 中位數 上限 中位數
毒物 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
身分攻擊 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
侮辱 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
威脅 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
不雅用語 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

使用方式和限制

預定用途

Open Vision Language Models (VLM) 涵蓋多種不同產業和領域的大量應用程式。以下列出可能的用途並不全面。這份清單的目的是針對模型訓練和開發過程中可能使用的用途提供背景資訊。

微調特定視覺語言任務:

  • 預先訓練模型可以微調各種視覺語言工作,例如:圖片說明文字、簡短的影片說明文字、視覺化問題回答、文字讀取、物件偵測和物件區隔。
  • 預先訓練模型可以針對特定領域微調,例如遠端感應問題回答、視障人士的視覺化問題、科學問題回答、描述 UI 元素功能。
  • 您可針對含有非文字輸出的工作 (例如定界框或區隔遮罩) 微調預先訓練模型。

視覺語言研究:

  • 預先訓練模型和經過微調的模型可為研究人員奠定基礎,讓您試用 VLM 技術、開發演算法,並為領域推動革新。

倫理考量與風險

開發視覺語言模型 (VLM) 引發了一些道德問題。在建立開放式模型時,我們仔細思考以下幾點:

  • 偏見和公平
    • 以大規模的實際圖片文字資料訓練的 VLM,可以反映內嵌於訓練材料中的社會文化偏誤。這些模型會仔細審查、預先處理輸入資料的預先處理,以及這張資訊卡中回報的後置評估。
  • 不實資訊和濫用
    • VLM 可能遭人濫用,以產生不實、具誤導性或有害的文字。
    • 我們會提供指南,確保以負責任的方式使用模型,請參閱 負責任的生成式 AI 工具包
  • 透明度和可靠度
    • 這張模型資訊卡概略說明模型的架構、功能、限制和評估程序。
    • 以負責任的方式開發的開放模型讓 AI 生態系統中的開發人員和研究人員都能使用 VLM 技術,藉此分享創新成果。

識別和緩解的風險:

  • 持續偏見:建議在模型訓練、微調及其他用途期間,持續進行監控 (使用評估指標和人工審查),並探索去偏誤技術。
  • 產生有害內容:內容安全機制的機制和規範至關重要。我們建議開發人員根據特定產品政策和應用程式用途,執行適當的內容安全保護措施。
  • 惡意用途:技術限制以及開發人員和使用者教育可協助防範 LLM 的惡意應用程式。此外,我們也提供了協助使用者檢舉濫用行為的教育資源和報告機制:請參閱負責任的生成式 AI 工具包。Gemma 模型的使用限制政策列載於「Gemma 使用限制政策」中。
  • 侵犯隱私權:模型使用篩選過的資料進行訓練,以移除特定個人資訊和機密資料。我們鼓勵開發人員以隱私權保護技術,遵守隱私權法規。

限制

  • 繼承自基礎 Gemma 模型的大多數限制仍然適用:
    • VLM 較適合透過明確提示和指示建立框架的工作。開放式或高度複雜的工作可能會充滿挑戰。
    • 自然語言本身是複雜的VLM 可能難以掌握細微的細微差異、諷刺或擬真用語。
    • VLM 會根據從訓練資料集學習到的資訊產生回應,但並非知識庫。但可能會產生錯誤或過時的事實陳述。
    • VLM 仰賴語言和圖片的統計模式。這類模型可能在特定情況下無法應用常見合理推理。
  • PaliGemma 最初是設計成典型的預先訓練模型 用於微調特殊工作因此,針對專為該目標設計的模型,其效能可能會落後於「立即可用」或「零樣本」效能。
  • PaliGemma 不是多輪聊天機器人。專為單一圓形圖片與文字輸入而設計。