模型頁面: PaliGemma
資源和技術說明文件:
使用條款: 條款
作者:Google
款式資訊
模型摘要
說明
PaliGemma 是一款功能多元的輕量視覺語言模型 (VLM),靈感來自於 PaLI-3 且以諸如此類的開放元件為基礎, SigLIP Vision 模型和 Gemma 語言模型需要的圖片和文字 產生文字做為輸出內容,並支援多種語言。是 提供卓越的跨平台效能, 視覺語言任務,例如圖片和影片的字幕、視覺問題 以及回應、文字讀數、物件偵測和物件區隔
模型架構
PaliGemma 是 Transformer 的組成 decoder 和 Vision Transformer 圖片 編碼器,總計有 30 億個參數 文字解碼器是從 Gemma-2B。圖片編碼器是 初始化來源 SigLIP-So400m/14。 PaliGemma 也依照 PaLI-3 食譜進行訓練。
輸入和輸出
- 輸入內容:圖片和文字字串,例如建立圖片說明文字的提示。 問題。
- 輸出:回應輸入內容產生的文字,例如 圖片、問題解答、物件定界框清單 座標或區隔程式碼
模型資料
預先訓練資料集
PaliGemma 會使用下列資料集組合預先訓練:
- WebLI: WebLI (網路語言圖片) 是 這是一個從公開網路建構的網頁規模多語言圖片文字資料集。A 罩杯 多種 WebLI 分割項用於取得多功能模型功能 例如視覺語意理解、物件本地化 用視覺元素理解文字、多語言等
- CC3M-35L:網頁收錄的英文圖片-alt_text 組合 (Sharma et al.2018)。我們使用了 Google Cloud Translation API翻譯為 34 分 支援其他語言。
- VQ²A-CC3M-35L/VQG-CC3M-35L:VQ2A-CC3M (Changpinyo 等人, 2022a),翻譯為 使用 Google Cloud Translation API。
- OpenImages:偵測及偵測物件的問題與答案 (Piergiovanni 等人,2022 年),作者: OpenImages 資料集的手動建立規則。
- WIT:從維基百科 (Srinivasan 等人, 2021 年)。
資料責任篩選
下列篩選器會套用至 WebLI,旨在訓練 PaliGemma 對乾淨資料的影響:
- 色情圖片篩選:這個篩選器會移除 Google 判定為 色情性質。
- 文字安全性篩選:我們會辨識並濾除配對的圖片 以不安全的文字為依據不安全文字是指任何被視為包含或描述的內容 含有兒少性虐待圖像、色情、粗俗或令人反感的內容。
- 文字惡意內容篩選:我們進一步使用 Perspective API 辨識並篩除 搭配經認定為侮辱、猥褻、仇恨或其他惡意的文字。
- 文字個人資訊篩選功能:我們篩除了特定個人資訊 資訊和其他機密資料Cloud Data Loss Prevention (DLP) API 來保護 個人隱私權身分證字號 其他機密資訊類型都已移除。
- 其他方法:根據 並遵守我們的政策和做法
導入資訊
硬體
PaliGemma 是以最新一代的 Tensor Processing Unit 訓練 (TPU) 硬體 (TPUv5e)。
軟體
訓練是透過 JAX 完成。
Flax、
TFDS 和
big_vision
。
JAX 可讓研究人員充分運用最新一代的硬體 (包括 TPU),以更快、更有效率的方式訓練大型模型。
TFDS 用於存取資料集,而 Flax 則用於模型架構。
PaliGemma 微調程式碼和推論程式碼已發布到 big_vision
GitHub 存放區
評估作業資訊
基準測試結果
為了驗證 PaliGemma 能夠順利轉移到各種形式的 也會針對每項任務微調預先訓練模型此外,我們也 請混合使用轉移工作來訓練混合模型我們會在以下日期回報結果: 使用不同的解析度,讓客戶知道哪些工作能受益 解析度越高越好很重要的一點是,這些工作或資料集都不屬於 預先訓練的混合資料,並明確從 網路規模的預先訓練資料
單一任務 (微調單一任務)
基準 (訓練分割) | 指標 (分割) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
字幕 | ||||
二氧化碳說明文字 (火車 + 靜息) | 路邊車 (價值) | 西元 141.92 個 | 144.60 次 | |
NoCaps (評估 COCO 字幕傳輸次數) | 路邊車 (價值) | 121.72 中 | 123.58 | |
COCO-35L (火車) | CIDEr 開發 (en/avg-34/平均值) |
|
141.2
|
|
XM3600 (Eval COCO-35L 轉乘) | CIDEr 開發 (en/avg-34/平均值) |
|
|
|
TextCaps (訓練) | 路邊車 (價值) | 西元 127.48 | 153.94 美元 | |
SciCap (第一句話,無子記號) (訓練 + 值) | CIDEr/BLEU-4 (測試) |
|
|
|
Screen2words (訓練 + 開發) | CIDEr (測試) | 117.57 號 | 119.59 號 | |
小工具說明文字 (train+dev) | CIDEr (測試) | 136.07 | 148.36 | |
問題回答 | ||||
VQAv2 (訓練 + 驗證) | 準確度 (測試伺服器 - std) | 83.19 | 85.64 | |
MMVP (Eval of VQAv2 轉移) | 成對的準確率 | 47.33 | 45:33 | |
POPE (VQAv2 傳輸的評估) | 準確度 (隨機/熱門/對手) |
|
|
|
OKVQA (訓練) | 準確度 (val) | 63.54 | 63.15 | |
A-OKVQA (MC) (訓練 + 值) | 準確度 (測試伺服器) | 76.37 | 76.90 美元 | |
A-OKVQA (DA) (訓練 + 值) | 準確度 (測試伺服器) | 61.85 | 63.22 | |
GQA (train_balanced+val_balanced) | 準確度 (testdev balanced) | 65.61 日 | 67.03 | |
xGQA (GQA 轉移評估) | 平均準確度 (bn、de、en、id、ko、pt、ru、zh) | 58.37 | 59.07 | |
NLVR2 (訓練 + 開發) | 準確度 (測試) | 90.02 | 88.93 | |
MaRVL (NLVR2 傳輸評估值) | 平均準確率 (測試) (id、sw、ta、tr、zh) | 80.57 | 76.78 | |
AI2D (訓練) | 準確度 (測試) | 72.12 | 73:28 | |
ScienceQA (Img 子集,無 CoT) (訓練 + 值) | 準確度 (測試) | 95.39 美元 | 95.93 人 | |
RSVQA-LR (非數字) (train+val) | 平均準確度 (測試) | 92.65 | 93.11 | |
RSVQA-HR (非數字) (train+val) | 平均準確率 (測試/測試 2) |
|
|
|
ChartQA (human+aug)x(train+val) | 平均休閒準確度 (test_human、test_aug) | 57.08 | 71.36 | |
VizWiz VQA (訓練 + 值) | 準確度 (測試伺服器 - std) | 73.7 | 75.52 | |
TallyQA (訓練) | 準確率 (test_simple/test_complex) |
|
|
|
OCR-VQA (訓練+值) | 準確度 (測試) | 72.32 | 74.61 | 74.93 |
TextVQA (訓練 + 值) | 準確度 (測試伺服器 - std) | 55.47 | 73.15 | 76.48 |
DocVQA (訓練+值) | ANLS (測試伺服器) | 43.74 | 78:02 | 84.77 |
資訊圖表 VQA (訓練 + 值) | ANLS (測試伺服器) | 28.46 | 40.47 | 47.75 |
SceneText VQA (訓練+val) | ANLS (測試伺服器) | 63.29 | 81.82 | 84.40 |
區隔 | ||||
RefCOCO (結合 refcoco、refcoco+、refcocog,不包含 val 和測試映像檔) | MIoU (驗證) refcoco/refcoco+/refcocog |
|
|
|
影片工作 (字幕/品質確保) | ||||
MSR-VTT (字幕) | CIDEr (測試) | 70.54 | ||
MSR-VTT (品質確保) | 準確度 (測試) | 50.09 美元 | ||
ActivityNet (字幕) | CIDEr (測試) | 34.62 | ||
ActivityNet (QA) | 準確度 (測試) | 50.78 | ||
VATEX (字幕) | CIDEr (測試) | 79.73 次 | ||
MSVD (QA) | 準確度 (測試) | 60.22 |
混合模型 (微調轉移工作混合)
基準 | 指標 (分割) | mix-224 | mix-448 |
---|---|---|---|
MMVP | 成對的準確率 | 46.00 美元 | 45:33 |
流行 | 準確度 (隨機/熱門/對手) |
|
|
倫理與安全
評估方法
我們的評估方法包括結構化的評估和內部紅隊演練 測試相關內容政策紅隊演練 每個團隊都有不同的目標和人工評估指標這些 並根據相關的各種類別評估模型 倫理道德規範,包括:
- 以人工方式評估有關兒童安全、內容安全和 導致的傷害。查看 Gemma 模型 卡: 更多評估方法,並於圖像說明和影像內容方面 回答設定
- 圖片轉文字基準評估:以相關學術機構為基礎進行基準測試 例如 FairFace Dataset Karkkainen 等人、 2021 年)。
評估結果
- 人員評估結果位於倫理和安全評估範圍內 在內部會議可接受的門檻 政策 針對兒童安全、內容安全和呈現方式等類別 利用 AI
- 除了強大的內部評估之外,我們還使用 Perspective API (門檻為 0.8) 來評估惡意內容、不雅用語和其他潛在 由 FairFace 來源的圖片生成說明文字中的問題 我們會記錄各子群組中觀察到的最大和中位數值 各個不同特徵的性別、族裔和年齡屬性
指標 | 感知的性別 | 族群 | 年齡層 | |||
---|---|---|---|---|---|---|
上限 | 中位數 | 上限 | 中位數 | 上限 | 中位數 | |
毒性 | 0.04% | 0.03% | 0.08% | 0.00% | 0.09% | 0.00% |
身分攻擊 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
侮辱內容 | 0.06% | 0.04% | 0.09% | 0.07% | 0.16% | 0.00% |
威脅 | 0.06% | 0.05% | 0.14% | 0.05% | 0.17% | 0.00% |
不雅用語 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
使用方式與限制
預定用途
開放式 Vision 語言模型 (VLM) 在多種 不同的產業和領域以下列出可能的用途 全面這份清單的用途是提供相關情境資訊 模型創作者考慮到模型的可能用途 訓練與開發模型
微調特定視覺語言任務:
- 預先訓練模型能針對多種視覺語言進行微調 像是圖片說明文字、短片說明、圖像問題 以及接聽、文字讀取、物件偵測和物件區隔
- 您可以針對特定領域 (例如遠端設定) 微調預先訓練模型 感測問題回答、視覺問題 科學問題回答、說明 UI 元素的功能
- 您可以微調預先訓練模型,處理含有非文字輸出內容的工作 例如定界框或區隔遮罩
視覺語言研究:
- 預先訓練模型和經過微調的模型可做為 協助研究人員嘗試 VLM 技術、開發演算法 藉此促進發展領域發展
倫理考量和風險
視覺語言模型 (VLM) 的開發促進多項倫理道德 疑慮。建立開放式模型時,我們會仔細考量下列事項:
- 偏誤和公平性
- 以大規模的實際圖片文字資料訓練的 VLM 模型 訓練教材中內嵌的社會文化偏見這些模型 經過仔細審查的輸入資料 這張資訊卡中報告的後期評估。
- 錯誤資訊和濫用
- VLM 可能誤以為生成錯誤、具誤導性或 有害。
- 我們會提供指南,協助您以負責任的方式使用模型。請參閱 負責任的生成式 AI 工具包
- 資訊公開和當責
- 這張模型資訊卡總結出這些模型的詳細資料架構 能力、限制和評估程序
- 秉持負責態度開發的開放式模型 讓開發人員輕鬆使用 VLM 技術 整個 AI 生態系統中的研究人員
識別的風險和緩解措施:
- 滲透偏誤:建議持續監控偏誤 (透過評估指標和專人審查) 以及去蕪存菁 能訓練模型、微調和其他用途
- 產生有害內容的方式:內容的機制和規範 安全至關重要開發人員應謹慎行事 根據其具體情況 產品政策和應用程式用途
- 誤用:技術限制和開發人員和 使用者教育有助於減少 LLM 的惡意應用方式。 可供使用者檢舉濫用行為的教育資源和檢舉機制, 請參閱《Responsible Generative AI Toolkit》Gemma 禁止用途 就必須遵守《Gemma 使用限制政策》。
- 侵犯隱私權:我們使用經過篩選的資料訓練模型,以便移除 特定個人資訊和機密資料 遵循隱私權法規和隱私權保護技術。
限制
- 從基礎 Gemma 模型沿用的大多數限制仍然適用:
- VLM 比較適合使用明確的提示 操作說明。開放式或高度複雜的工作可能具有挑戰性。
- 自然語言本質上就很複雜。VLM 頻道可能難以掌握 細微差異、諷刺或猜測用語。
- VLM 會根據從 但不是知識庫使用者可能會 不正確或過時的事實陳述
- VLM 仰賴語言和圖片的統計模式。例如: 無法在特定情況下運用常識推理
- PaliGemma 主要做為一般預先訓練的 用於微調特殊工作因此「立即可用」或 「零樣本」效能可能會落後於專為 這些資料。
- PaliGemma 不是多輪聊天機器人。這個架構專為單輪遊戲而設計 圖片與文字輸入內容