前往 Gemma Cookbook 存放區取得產生與調整範例！瞭解詳情

本頁面由 Cloud Translation API 翻譯而成。

PaliGemma 2 模型資訊卡

模型頁面： PaliGemma

資源和技術文件：

使用條款： 條款

作者：Google

款式資訊

模型摘要

PaliGemma 2 是 PaliGemma 視覺語言模型 (VLM) 的更新版本，整合了 Gemma 2 模型的功能。PaliGemma 系列模型的靈感來自 PaLI-3，並以 SigLIP 視覺模型和 Gemma 2 語言模型等開放式元件為基礎。這個模型會同時將圖片和文字做為輸入內容，並生成文字做為輸出內容，支援多種語言。這項服務可在多種視覺語言任務中提供一流的精細調整效能，例如圖像和短片字幕、圖像問題回答、文字閱讀、物件偵測和物件分割。

模型架構

PaliGemma 2 由 Transformer 解碼器和 Vision Transformer 圖像編碼器組成。文字解碼器會從 Gemma 2 的 2B、9B 和 27B 參數大小進行初始化。圖片編碼器會從 SigLIP-So400m/14 進行初始化。與原始 PaliGemma 模型類似，PaliGemma 2 也是按照 PaLI-3 配方進行訓練。

輸入和輸出

輸入內容：圖片和文字字串，例如圖片說明提示或問題。
輸出：根據輸入內容產生的文字，例如圖片的標題、問題的答案、物件邊界框座標清單或區隔代碼字詞。

引用內容

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

模型資料

預先訓練資料集

PaliGemma 2 是使用下列資料集的混合版本進行預先訓練：

WebLI： WebLI (Web Language Image) 是從公開網站建立的網站規模多語言圖像文字資料集。我們使用各種 WebLI 分割方式，取得多元模型功能，例如視覺語意理解、物件定位、視覺情境文字理解和多語言功能。
CC3M-35L：從網頁中挑選的英文圖片-替代文字組合 (Sharma 等人，2018 年)。我們使用 Google Cloud Translation API 翻譯成其他 34 種語言。
VQ²A-CC3M-35L/VQG-CC3M-35L:VQ2A-CC3M 的子集 (Changpinyo 等人，2022a)，並使用 Google Cloud Translation API 將其翻譯成 CC3M-35L 的其他 34 種語言。
OpenImages：使用手動建立的規則，在 OpenImages 資料集上產生偵測和物件感知問題與答案 (Piergiovanni 等人，2022)。
WIT：從 Wikipedia 收集的圖片和文字 (Srinivasan 等人，2021 年)。

PaliGemma 2 是以 Gemma 2 為基礎，您可以在 Gemma 2 模型資訊卡中，查看 Gemma 2 預先訓練資料集的相關資訊。

資料責任篩選

以下篩選器會套用至 WebLI，目的是讓 PaliGemma 2 以安全且負責任的方式訓練資料：

色情圖片篩選：這項篩選條件會移除系統判定為色情圖片的圖片。
文字安全篩選：我們會找出與不安全文字搭配的圖片，並加以篩除。不安全文字是指任何文字，如果 Google 判定其含有或涉及兒童性虐待圖像 (CSAI)、色情內容、粗俗字眼，或其他令人反感的內容，就屬於不安全文字。
文字惡意指數篩選：我們進一步使用 Perspective API 來識別並篩除與文字搭配的圖片，如果文字含有侮辱、猥褻、仇恨或其他惡意內容，就會篩除。
文字個人資訊篩選：我們使用 Cloud Data Loss Prevention (DLP) API 篩選特定個人資訊和其他私密資料，以保護個人隱私。我們已移除身分證字號和其他機密資訊類型等識別資訊。
其他方法：根據政策和做法，依內容品質和安全性進行篩選。

實作資訊

硬體

PaliGemma 2 是使用最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5e) 訓練而成。

軟體

訓練作業是使用 JAX、Flax、TFDS 和 big_vision 完成。

JAX 可讓研究人員充分利用新一代硬體 (包括 TPU)，以更快速、更有效率的方式訓練大型模型。

TFDS 用於存取資料集，Flax 則用於模型架構。PaliGemma 2 精修程式碼和推論程式碼已發布至 big_vision GitHub 存放區。

評估作業資訊

基準測試結果

為了驗證 PaliGemma 2 可否轉移至各種學術工作，我們針對每項工作微調預先訓練的模型。此外，我們會使用混合轉移作業來訓練混合模型。我們會針對不同解析度回報結果，讓您瞭解哪些工作可從提高解析度中受益。重要的是，這些任務或資料集都不是預先訓練資料混合內容的一部分，且會從網頁規模的預先訓練資料中明確移除這些圖片。

依模型解析度和大小比較 PaliGemma 2 的結果

基準	224-3B	224-10B	224-28B	448-3B	448-10B	448-28B
AI2D	74.7	83.1	83.2	76.0	84.4	84.6
AOKVQA-DA (val)	64.2	68.9	70.2	67.9	70.8	71.2
AOKVQA-MC (val)	79.7	83.7	84.7	82.5	85.9	87.0
ActivityNet-CAP	34.2	35.9	-	-	-	-
ActivityNet-QA	51.3	53.2	-	-	-	-
COCO-35L (avg34)	113.9	115.8	116.5	115.8	117.2	117.2
COCO-35L (英文)	138.4	140.8	142.4	140.4	142.4	142.3
COCOcap	141.3	143.7	144.0	143.4	145.0	145.2
ChartQA (平均值)	74.4	74.2	68.9	89.2	90.1	85.1
ChartQA (人工)	42.0	48.4	46.8	54.0	66.4	61.3
CountBenchQA	81.0	84.0	86.4	82.0	85.3	87.4
DocVQA (val)	39.9	43.9	44.9	73.6	76.6	76.1
GQA	66.2	67.2	67.3	68.1	68.3	68.3
InfoVQA (val)	25.2	33.6	36.4	37.5	47.8	46.7
MARVL (avg5)	83.5	89.5	90.6	82.7	89.1	89.7
MSRVTT-CAP	68.5	72.1	-	-	-	-
MSRVTT-QA	50.5	51.9	-	-	-	-
MSVD-QA	61.1	62.5	-	-	-	-
NLVR2	91.4	93.9	94.2	91.6	93.7	94.1
NoCaps	123.1	126.3	127.1	123.5	126.9	127.0
OCR-VQA	73.4	74.7	75.3	75.7	76.3	76.6
OKVQA	64.2	68.0	71.2	64.1	68.6	70.6
RSVQA-hr (測試)	92.7	92.6	92.7	92.8	92.8	92.8
RSVQA-hr (test2)	90.9	90.8	90.9	90.7	90.7	90.8
RSVQA-lr	93.0	92.8	93.5	92.7	93.1	93.7
RefCOCO (testA)	75.7	77.2	76.8	78.6	79.7	79.3
RefCOCO (testB)	71.0	74.2	73.9	73.5	76.2	74.8
RefCOCO (val)	73.4	75.9	75.0	76.3	78.2	77.3
RefCOCO+ (testA)	72.7	74.7	73.6	76.1	77.7	76.6
RefCOCO+ (testB)	64.2	68.4	67.1	67.0	71.1	68.6
RefCOCO+ (val)	68.6	72.0	70.3	72.1	74.4	72.8
RefCOCOg (測試)	69.0	71.9	70.7	72.7	74.8	73.7
RefCOCOg (val)	68.3	71.4	70.5	72.3	74.4	73.0
ST-VQA (val)	61.9	64.3	65.1	80.5	82.0	81.8
SciCap	165.1	159.5	156.9	183.3	177.2	172.7
ScienceQA	96.1	98.2	98.2	96.2	98.5	98.6
Screen2Words	113.3	117.8	122.8	114.0	119.1	123.4
TallyQA (複雜)	70.3	73.4	74.2	73.6	76.7	76.8
TallyQA (簡易版)	81.8	83.2	83.4	85.3	86.2	85.7
TextCaps	127.5	137.9	139.9	152.1	157.7	153.6
TextVQA (val)	59.6	64.0	64.7	75.2	76.6	76.2
VATEX	80.8	82.7	-	-	-	-
VQAv2 (minival)	83.0	84.3	84.5	84.8	85.8	85.8
VizWizVQA (val)	76.4	78.1	78.7	77.5	78.6	78.9
WidgetCap	138.1	139.8	138.8	151.4	151.9	148.9
XM3600 (avg35)	42.8	44.5	45.2	43.2	44.6	45.2
XM3600 (英文)	79.8	80.7	81.0	80.3	81.5	81.0
xGQA (avg7)	58.6	61.4	61.1	60.4	62.6	62.1

其他基準

ICDAR 2015 Incidental

型號	精確度	喚回度	F1
PaliGemma 2 3B	81.88	70.73	75.9

Total-Text

型號	精確度	喚回度	F1
PaliGemma 2 3B	73.8。	74.54	74.17

FinTabNet

型號	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	99.18	98.94	99.43	99.21

PubTabNet

型號	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	97.6	97.31	97.99	97.84

GrandStaff

型號	CER	LER	SER
PaliGemma 2 3B	1.6	6.7	2.3

PubChem

PaliGemma 2 3B，完全相符：94.8

DOCCI

型號	avg#char	avg#sent	NES %
PaliGemma 2 3B	529	7.74	28.42
PaliGemma 2 10B	521	7.45	20.27

avg#char：平均字元數
avg#sent：平均句子數
NES：非推論句

MIMIC-CXR

型號	CIDEr	BLEU4	Rouge-L	RadGraph F1
PaliGemma 2 3B	19.9%	14.6%	31.92%	28.8%
PaliGemma 2 10B	17.4%	15%	32.41%	29.5%

視覺空間推理能力

型號	VSR 零樣本分割 (測試)	VSR 隨機分組 (測試)
PaliGemma 2 3B	0.75	0.82
PaliGemma 2 10B	0.80	0.87

道德與安全

評估方法

我們的評估方法包括在相關內容政策中進行結構化倫理和安全性評估，包括：

針對兒童安全、內容安全和表徵性傷害等提示進行人為評估。如要進一步瞭解評估方法，請參閱 Gemma 模型資訊卡，但請注意，這裡的設定是針對圖像說明和視覺問答。
圖像轉文字基準評估：以相關學術資料集為基準，例如 FairFace 資料集 (Karkkainen 等人，2021 年)。

評估結果

倫理和安全性評估的人工評估結果符合兒童安全、內容安全和表徵性傷害等類別的內部政策，且符合可接受的門檻。
除了嚴謹的內部評估之外，我們也使用 Perspective API (門檻為 0.8)，評估從 FairFace 資料集產生的圖片字幕是否含有惡意、粗俗字眼和其他潛在問題。我們會針對每個所感知的性別、種族和年齡屬性，針對各個子群組回報觀察到的最大值和中位數。

指標	感知性別			族群			年齡層
模型大小	30 億次	10B	28B	30 億次	10B	28B	30 億次	10B	28B
	上限
毒性	0.14%	0.15%	0.19%	0.29%	0.39%	0.39%	0.26%	0.18%	0.32%
身分攻擊	0.04%	0.02%	0.02%	0.13%	0.06%	0.06%	0.06%	0.03%	0.06%
侮辱內容	0.17%	0.25%	0.17%	0.37%	0.52%	0.52%	0.27%	0.39%	0.24%
威脅	0.55%	0.43%	0.57%	0.83%	0.48%	0.48%	0.64%	0.43%	0.64%
不雅用語	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
	中位數
毒性	0.13%	0.10%	0.18%	0.07%	0.07%	0.14%	0.12%	0.08%	0.12%
身分攻擊	0.02%	0.01%	0.02%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
侮辱內容	0.15%	0.23%	0.14%	0.14%	0.17%	0.13%	0.09%	0.18%	0.16%
威脅	0.35%	0.27%	0.41%	0.28%	0.19%	0.42%	0.27%	0.31%	0.40%
不雅用語	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

使用方式和限制

預定用途

開放式視覺語言模型 (VLM) 的應用範圍廣泛，涵蓋各個產業和領域。以下列出可能的用途，但不包含所有用途。這份清單的目的，是提供關於可能用途的背景資訊，這些用途是模型建立者在模型訓練和開發過程中考慮的。Gemma 使用限制政策列出 Gemma 模型的禁止用途。

針對特定視覺語言任務進行精修：

預先訓練的模型可針對多種視覺語言任務進行微調，例如圖像說明、短片字幕、視覺問題回答、文字閱讀、物件偵測和物件分割。
預先訓練的模型可針對特定領域進行微調，例如遠端感測問題解答、視障人士的視覺問題、科學問題解答、說明 UI 元素功能。
預先訓練的模型可針對非文字輸出內容 (例如邊界框或分割遮罩) 的任務進行微調。

視覺語言研究：

預先訓練的模型和精修模型可做為研究人員實驗 VLM 技術、開發演算法，並為該領域的進步做出貢獻的基礎。

倫理考量和風險

開發視覺語言模型 (VLM) 時，會引發幾項道德問題。在建立開放式模式時，我們已仔細考量以下事項：

偏誤與公平性
- 以大量現實圖像文字資料訓練的 VLM 可能會反映訓練素材中內建的社會文化偏見。這些模型經過仔細審查，並在這個資訊卡中說明輸入資料的預先處理方式，以及後續評估結果。
不實資訊和濫用行為
- 使用者可能會濫用 VLM 產生虛假、誤導或有害的內容。
- 我們提供相關指南，說明如何負責任地使用模型，請參閱負責任的生成式 AI 技術工具包。
資訊公開及當責
- 這個模型資訊卡會概略說明模型的架構、功能、限制和評估程序。
- 我們以負責任的方式開發開放式模型，讓 AI 生態系統中的開發人員和研究人員都能使用 VLM 技術，進而分享創新成果。

已識別的風險和緩解措施：

偏見持續存在：建議您在模型訓練、微調和其他用途期間，持續監控 (使用評估指標、人為審查) 並探索去偏技術。
產生有害內容：內容安全機制和指南至關重要。我們建議開發人員小心謹慎，並根據特定產品政策和應用程式用途，導入適當的內容安全防護措施。
遭到濫用，用於惡意用途：技術限制和開發人員與使用者教育訓練，有助於降低 LLM 遭到濫用的問題。我們提供教育資源和回報機制，方便使用者檢舉濫用行為：請參閱負責任的生成式 AI 工具包。Gemma 使用限制政策列出 Gemma 模型的禁止用途。
隱私權違規：模型是使用經過篩選的資料訓練，以移除特定個人資訊和私密資料。我們鼓勵開發人員透過隱私權保護技術遵守隱私權法規。

限制

大部分從基礎 Gemma 2 模型繼承的限制仍適用：
- 只要能透過明確的提示和指示進行設定，VLM 處理這類任務的表現就會更好。開放式或高度複雜的工作可能會比較困難。
- 自然語言本身就很複雜，大型語言模型可能難以掌握細微的語意、嘲諷或比喻。
- VLM 會根據從訓練資料集學到的資訊產生回覆，但並非知識庫。可能會產生不正確或過時的事實陳述。
- VLM 仰賴語言和圖片中的統計模式。在某些情況下，他們可能無法運用常識推理。
PaliGemma 2 的設計目的，首先是做為一般預先訓練模型，用於微調專門的任務。因此，其「即時」或「零樣本」的效能，可能會落後於專為通用用途設計的模型。
PaliGemma 2 不是多輪對話式聊天機器人。這項功能設計用於單一輪圖片和文字輸入。