前往 Gemma Cookbook 存放區取得產生與調整範例！瞭解詳情

本頁面由 Cloud Translation API 翻譯而成。

PaliGemma 模型資訊卡

模型頁面： PaliGemma

資源和技術說明文件：

使用條款： 條款

作者：Google

款式資訊

模型摘要

說明

PaliGemma 是一款功能多元的輕量視覺語言模型 (VLM)，靈感來自於 PaLI-3 且以諸如此類的開放元件為基礎， SigLIP Vision 模型和 Gemma 語言模型需要的圖片和文字產生文字做為輸出內容，並支援多種語言。是提供卓越的跨平台效能，視覺語言任務，例如圖片和影片的字幕、視覺問題以及回應、文字讀數、物件偵測和物件區隔

模型架構

PaliGemma 是 Transformer 的組成 decoder 和 Vision Transformer 圖片編碼器，總計有 30 億個參數文字解碼器是從 Gemma-2B。圖片編碼器是初始化來源 SigLIP-So400m/14。 PaliGemma 也依照 PaLI-3 食譜進行訓練。

輸入和輸出

輸入內容：圖片和文字字串，例如建立圖片說明文字的提示。問題。
輸出：回應輸入內容產生的文字，例如圖片、問題解答、物件定界框清單座標或區隔程式碼

模型資料

預先訓練資料集

PaliGemma 會使用下列資料集組合預先訓練：

WebLI： WebLI (網路語言圖片) 是這是一個從公開網路建構的網頁規模多語言圖片文字資料集。A 罩杯多種 WebLI 分割項用於取得多功能模型功能例如視覺語意理解、物件本地化用視覺元素理解文字、多語言等
CC3M-35L：網頁收錄的英文圖片-alt_text 組合 (Sharma et al.2018)。我們使用了 Google Cloud Translation API翻譯為 34 分支援其他語言。
VQ²A-CC3M-35L/VQG-CC3M-35L:VQ2A-CC3M (Changpinyo 等人， 2022a)，翻譯為使用 Google Cloud Translation API。
OpenImages：偵測及偵測物件的問題與答案 (Piergiovanni 等人，2022 年)，作者： OpenImages 資料集的手動建立規則。
WIT：從維基百科 (Srinivasan 等人， 2021 年)。

資料責任篩選

下列篩選器會套用至 WebLI，旨在訓練 PaliGemma 對乾淨資料的影響：

色情圖片篩選：這個篩選器會移除 Google 判定為色情性質。
文字安全性篩選：我們會辨識並濾除配對的圖片以不安全的文字為依據不安全文字是指任何被視為包含或描述的內容含有兒少性虐待圖像、色情、粗俗或令人反感的內容。
文字惡意內容篩選：我們進一步使用 Perspective API 辨識並篩除搭配經認定為侮辱、猥褻、仇恨或其他惡意的文字。
文字個人資訊篩選功能：我們篩除了特定個人資訊資訊和其他機密資料Cloud Data Loss Prevention (DLP) API 來保護個人隱私權身分證字號其他機密資訊類型都已移除。
其他方法：根據並遵守我們的政策和做法

導入資訊

硬體

PaliGemma 是以最新一代的 Tensor Processing Unit 訓練 (TPU) 硬體 (TPUv5e)。

軟體

訓練是透過 JAX 完成。 Flax、 TFDS 和 big_vision。

JAX 可讓研究人員充分運用最新一代的硬體 (包括 TPU)，以更快、更有效率的方式訓練大型模型。

TFDS 用於存取資料集，而 Flax 則用於模型架構。 PaliGemma 微調程式碼和推論程式碼已發布到 big_vision GitHub 存放區

評估作業資訊

基準測試結果

為了驗證 PaliGemma 能夠順利轉移到各種形式的也會針對每項任務微調預先訓練模型此外，我們也請混合使用轉移工作來訓練混合模型我們會在以下日期回報結果：使用不同的解析度，讓客戶知道哪些工作能受益解析度越高越好很重要的一點是，這些工作或資料集都不屬於預先訓練的混合資料，並明確從網路規模的預先訓練資料

單一任務 (微調單一任務)

基準 (訓練分割)	指標 (分割)	pt-224	pt-448	pt-896
字幕
二氧化碳說明文字 (火車 + 靜息)	路邊車 (價值)	西元 141.92 個	144.60 次
NoCaps (評估 COCO 字幕傳輸次數)	路邊車 (價值)	121.72 中	123.58
COCO-35L (火車)	CIDEr 開發 (en/avg-34/平均值)	139.2 115.8 版 116.4	141.2 118.0 版 118.6 版
XM3600 (Eval COCO-35L 轉乘)	CIDEr 開發 (en/avg-34/平均值)	78.1 41.3 42.4	80.0 版 41.9 42.9
TextCaps (訓練)	路邊車 (價值)	西元 127.48	153.94 美元
SciCap (第一句話，無子記號) (訓練 + 值)	CIDEr/BLEU-4 (測試)	162.25 0.192	181.49 版 0.211
Screen2words (訓練 + 開發)	CIDEr (測試)	117.57 號	119.59 號
小工具說明文字 (train+dev)	CIDEr (測試)	136.07	148.36
問題回答
VQAv2 (訓練 + 驗證)	準確度 (測試伺服器 - std)	83.19	85.64
MMVP (Eval of VQAv2 轉移)	成對的準確率	47.33	45:33
POPE (VQAv2 傳輸的評估)	準確度 (隨機/熱門/對手)	87.80 85.87 84.27	88.23 86.77 85.90
OKVQA (訓練)	準確度 (val)	63.54	63.15
A-OKVQA (MC) (訓練 + 值)	準確度 (測試伺服器)	76.37	76.90 美元
A-OKVQA (DA) (訓練 + 值)	準確度 (測試伺服器)	61.85	63.22
GQA (train_balanced+val_balanced)	準確度 (testdev balanced)	65.61 日	67.03
xGQA (GQA 轉移評估)	平均準確度 (bn、de、en、id、ko、pt、ru、zh)	58.37	59.07
NLVR2 (訓練 + 開發)	準確度 (測試)	90.02	88.93
MaRVL (NLVR2 傳輸評估值)	平均準確率 (測試) (id、sw、ta、tr、zh)	80.57	76.78
AI2D (訓練)	準確度 (測試)	72.12	73:28
ScienceQA (Img 子集，無 CoT) (訓練 + 值)	準確度 (測試)	95.39 美元	95.93 人
RSVQA-LR (非數字) (train+val)	平均準確度 (測試)	92.65	93.11
RSVQA-HR (非數字) (train+val)	平均準確率 (測試/測試 2)	92.61 90.58	92.79 90.54
ChartQA (human+aug)x(train+val)	平均休閒準確度 (test_human、test_aug)	57.08	71.36
VizWiz VQA (訓練 + 值)	準確度 (測試伺服器 - std)	73.7	75.52
TallyQA (訓練)	準確率 (test_simple/test_complex)	81.72 69.56	84.86 72.27
OCR-VQA (訓練+值)	準確度 (測試)	72.32	74.61	74.93
TextVQA (訓練 + 值)	準確度 (測試伺服器 - std)	55.47	73.15	76.48
DocVQA (訓練+值)	ANLS (測試伺服器)	43.74	78:02	84.77
資訊圖表 VQA (訓練 + 值)	ANLS (測試伺服器)	28.46	40.47	47.75
SceneText VQA (訓練+val)	ANLS (測試伺服器)	63.29	81.82	84.40
區隔
RefCOCO (結合 refcoco、refcoco+、refcocog，不包含 val 和測試映像檔)	MIoU (驗證) refcoco/refcoco+/refcocog	73.40 68.32 個 67.65	75.57 69.76 70.17	76.94 72.18 72.22
影片工作 (字幕/品質確保)
MSR-VTT (字幕)	CIDEr (測試)	70.54
MSR-VTT (品質確保)	準確度 (測試)	50.09 美元
ActivityNet (字幕)	CIDEr (測試)	34.62
ActivityNet (QA)	準確度 (測試)	50.78
VATEX (字幕)	CIDEr (測試)	79.73 次
MSVD (QA)	準確度 (測試)	60.22

混合模型 (微調轉移工作混合)

基準	指標 (分割)	mix-224	mix-448
MMVP	成對的準確率	46.00 美元	45:33
流行	準確度 (隨機/熱門/對手)	88.00 86.63 版 85.67 版	89.37 88.40 87.47

基準

指標 (分割)

mix-224

mix-448

MMVP

成對的準確率

46.00 美元

45:33

流行

準確度 (隨機/熱門/對手)

88.00

86.63 版

85.67 版

89.37

88.40

87.47

倫理與安全

評估方法

我們的評估方法包括結構化的評估和內部紅隊演練測試相關內容政策紅隊演練每個團隊都有不同的目標和人工評估指標這些並根據相關的各種類別評估模型倫理道德規範，包括：

以人工方式評估有關兒童安全、內容安全和導致的傷害。查看 Gemma 模型卡：更多評估方法，並於圖像說明和影像內容方面回答設定
圖片轉文字基準評估：以相關學術機構為基礎進行基準測試例如 FairFace Dataset Karkkainen 等人、 2021 年)。

評估結果

人員評估結果位於倫理和安全評估範圍內在內部會議可接受的門檻政策針對兒童安全、內容安全和呈現方式等類別利用 AI
除了強大的內部評估之外，我們還使用 Perspective API (門檻為 0.8) 來評估惡意內容、不雅用語和其他潛在由 FairFace 來源的圖片生成說明文字中的問題我們會記錄各子群組中觀察到的最大和中位數值各個不同特徵的性別、族裔和年齡屬性

指標	感知的性別		族群		年齡層
	上限	中位數	上限	中位數	上限	中位數
毒性	0.04%	0.03%	0.08%	0.00%	0.09%	0.00%
身分攻擊	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
侮辱內容	0.06%	0.04%	0.09%	0.07%	0.16%	0.00%
威脅	0.06%	0.05%	0.14%	0.05%	0.17%	0.00%
不雅用語	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

使用方式與限制

預定用途

開放式 Vision 語言模型 (VLM) 在多種不同的產業和領域以下列出可能的用途全面這份清單的用途是提供相關情境資訊模型創作者考慮到模型的可能用途訓練與開發模型

微調特定視覺語言任務：

預先訓練模型能針對多種視覺語言進行微調像是圖片說明文字、短片說明、圖像問題以及接聽、文字讀取、物件偵測和物件區隔
您可以針對特定領域 (例如遠端設定) 微調預先訓練模型感測問題回答、視覺問題科學問題回答、說明 UI 元素的功能
您可以微調預先訓練模型，處理含有非文字輸出內容的工作例如定界框或區隔遮罩

視覺語言研究：

預先訓練模型和經過微調的模型可做為協助研究人員嘗試 VLM 技術、開發演算法藉此促進發展領域發展

倫理考量和風險

視覺語言模型 (VLM) 的開發促進多項倫理道德疑慮。建立開放式模型時，我們會仔細考量下列事項：

偏誤和公平性
- 以大規模的實際圖片文字資料訓練的 VLM 模型訓練教材中內嵌的社會文化偏見這些模型經過仔細審查的輸入資料這張資訊卡中報告的後期評估。
錯誤資訊和濫用
- VLM 可能誤以為生成錯誤、具誤導性或有害。
- 我們會提供指南，協助您以負責任的方式使用模型。請參閱負責任的生成式 AI 工具包
資訊公開和當責
- 這張模型資訊卡總結出這些模型的詳細資料架構能力、限制和評估程序
- 秉持負責態度開發的開放式模型讓開發人員輕鬆使用 VLM 技術整個 AI 生態系統中的研究人員

識別的風險和緩解措施：

滲透偏誤：建議持續監控偏誤 (透過評估指標和專人審查) 以及去蕪存菁能訓練模型、微調和其他用途
產生有害內容的方式：內容的機制和規範安全至關重要開發人員應謹慎行事根據其具體情況產品政策和應用程式用途
誤用：技術限制和開發人員和使用者教育有助於減少 LLM 的惡意應用方式。可供使用者檢舉濫用行為的教育資源和檢舉機制，請參閱《Responsible Generative AI Toolkit》Gemma 禁止用途就必須遵守《Gemma 使用限制政策》。
侵犯隱私權：我們使用經過篩選的資料訓練模型，以便移除特定個人資訊和機密資料遵循隱私權法規和隱私權保護技術。

限制

從基礎 Gemma 模型沿用的大多數限制仍然適用：
- VLM 比較適合使用明確的提示操作說明。開放式或高度複雜的工作可能具有挑戰性。
- 自然語言本質上就很複雜。VLM 頻道可能難以掌握細微差異、諷刺或猜測用語。
- VLM 會根據從但不是知識庫使用者可能會不正確或過時的事實陳述
- VLM 仰賴語言和圖片的統計模式。例如：無法在特定情況下運用常識推理
PaliGemma 主要做為一般預先訓練的用於微調特殊工作因此「立即可用」或「零樣本」效能可能會落後於專為這些資料。
PaliGemma 不是多輪聊天機器人。這個架構專為單輪遊戲而設計圖片與文字輸入內容