查看 Gemma Cookbook 代码库，了解生成和优化示例！了解详情

此页面由 Cloud Translation API 翻译。

PaliGemma 2 模型卡片

模型页面： PaliGemma

资源和技术文档：

使用条款：条款

作者：Google

型号信息

模型摘要

PaliGemma 2 是 PaliGemma 视觉语言模型 (VLM) 的更新版本，它融合了 Gemma 2 模型的功能。PaliGemma 系列模型的灵感源自 PaLI-3，基于 SigLIP 视觉模型和 Gemma 2 语言模型等开放式组件。它既接受图片和文本作为输入，也生成文本作为输出，支持多种语言。这款模型专为实现行业领先的调优性能而设计，可轻松处理各种视觉语言任务，例如为图片添加说明和为短视频配字幕、视觉问答、文本阅读、对象检测和对象分割。

模型架构

PaliGemma 2 由 Transformer 解码器和 Vision Transformer 图片编码器组成。文本解码器从 2B、9B 和 27B 参数大小的 Gemma 2 初始化。图片编码器从 SigLIP-So400m/14 初始化。与原始 PaliGemma 模型类似，PaLiGemma 2 是按照 PaLI-3 方案训练的。

输入和输出

输入：图片和文本字符串，例如用于为图片添加说明的提示或问题。
输出：针对输入生成的文本，例如图片的标题、问题的答案、对象边界框坐标列表或分割代码词。

引用

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

模型数据

预训练数据集

PaliGemma 2 在以下混合数据集上进行预训练：

WebLI：WebLI（Web 语言图片）是一个基于公开网络构建的 Web 级多语言图片-文本数据集。我们使用各种 WebLI 分块来获取多样化的模型功能，例如视觉语义理解、对象定位、视觉情境文本理解和多语言支持。
CC3M-35L：从网页中精选的英语图片-alt_text 对（Sharma 等人，2018 年）。我们使用 Google Cloud Translation API 翻译了另外 34 种语言。
VQ²A-CC3M-35L/VQG-CC3M-35L:：VQ2A-CC3M 的子集（Changpinyo 等人，2022a）使用 Google Cloud Translation API 翻译成了与 CC3M-35L 相同的 34 种其他语言。
OpenImages：基于 OpenImages 数据集，通过手动制作的规则生成的检测和感知对象的问题和回答 (Piergiovanni 等人，2022)。
WIT：从维基百科收集的图片和文本（Srinivasan 等人，2021 年）。

PaliGemma 2 基于 Gemma 2，您可以在 Gemma 2 模型卡片中找到有关 Gemma 2 预训练数据集的信息。

数据责任过滤

我们对 WebLI 应用了以下过滤器，目的是使用安全且负责任的数据训练 PaliGemma 2：

色情图片过滤：此过滤器会移除被视为色情图片的图片。
文本安全过滤：我们会识别并滤除与不安全文本搭配使用的图片。不安全文字是指任何被视为包含或涉及儿童色情虐待图像 (CSAI)、色情内容、粗俗内容或其他冒犯性内容的文字。
文本毒性过滤：我们还会使用 Perspective API 来识别和滤除与被视为侮辱性、淫秽性、仇恨性或其他毒性文本搭配使用的图片。
文本个人信息过滤：我们使用 Cloud Data Loss Prevention (DLP) API 过滤了特定个人信息和其他敏感数据，以保护个人隐私。移除了社会保障号和其他敏感信息类型等标识符。
其他方法：根据我们的政策和做法，根据内容质量和安全性进行过滤。

实现信息

硬件

PaliGemma 2 使用最新一代张量处理单元 (TPU) 硬件 (TPUv5e) 进行训练。

软件

训练是使用 JAX、Flax、TFDS 和 big_vision 完成的。

借助 JAX，研究人员可以利用最新一代硬件（包括 TPU）更快、更高效地训练大型模型。

TFDS 用于访问数据集，Flax 用于模型架构。PaliGemma 2 微调代码和推理代码已发布在 big_vision GitHub 代码库中。

评估信息

基准测试结果

为了验证 PaliGemma 2 是否可用于各种学术任务，我们针对每项任务对预训练模型进行了微调。此外，我们还使用混合转移任务训练混合模型。我们会报告不同分辨率的结果，以便您了解哪些任务会因分辨率提高而受益。重要的是，这些任务或数据集均不属于预训练数据混合，并且其图片会从 Web 级预训练数据中明确移除。

PaliGemma 2 结果（按模型分辨率和大小）

基准	224-3B	224-10B	224-28B	448-3B	448-10B	448-28B
AI2D	74.7	83.1	83.2	76.0	84.4	84.6
AOKVQA-DA（值）	64.2	68.9	70.2	67.9	70.8	71.2
AOKVQA-MC (val)	79.7	83.7	84.7	82.5	85.9	87.0
ActivityNet-CAP	34.2 岁	35.9	-	-	-	-
ActivityNet-QA	51.3	53.2	-	-	-	-
COCO-35L（avg34）	113.9	115.8	116.5	115.8	117.2	117.2
COCO-35L（英语）	138.4	140.8	142.4	140.4	142.4	142.3
COCOcap	141.3	143.7	144.0	143.4	145.0	145.2
ChartQA（平均值）	74.4	74.2	68.9	89.2	90.1	85.1
ChartQA（人工）	42.0	48.4	46.8	54.0	66.4	61.3
CountBenchQA	81.0	84.0	86.4	82.0	85.3	87.4
DocVQA（val）	39.9	43.9	44.9	73.6	76.6	76.1
GQA	66.2	67.2	67.3	68.1	68.3	68.3
InfoVQA (val)	25.2	33.6	36.4	37.5	47.8	46.7
MARVL（平均值 5）	83.5	89.5	90.6	82.7	89.1	89.7
MSRVTT-CAP	68.5	72.1	-	-	-	-
MSRVTT-QA	50.5	51.9	-	-	-	-
MSVD-QA	61.1	62.5	-	-	-	-
NLVR2	91.4	93.9	94.2	91.6	93.7	94.1
NoCaps	123.1	126.3	127.1	123.5	126.9	127.0
OCR-VQA	73.4	74.7	75.3	75.7	76.3	76.6
OKVQA	64.2	68.0	71.2	64.1	68.6	70.6
RSVQA-hr（测试）	92.7	92.6	92.7	92.8	92.8	92.8
RSVQA-hr（test2）	90.9	90.8	90.9	90.7	90.7	90.8
RSVQA-lr	93.0	92.8	93.5	92.7	93.1	93.7
RefCOCO (testA)	75.7	77.2	76.8	78.6	79.7	79.3
RefCOCO (testB)	71.0	74.2	73.9	73.5	76.2	74.8
RefCOCO（val）	73.4	75.9	75.0	76.3	78.2	77.3
RefCOCO+ (testA)	72.7	74.7	73.6	76.1	77.7	76.6
RefCOCO+ (testB)	64.2	68.4	67.1	67.0	71.1	68.6
RefCOCO+ (val)	68.6	72.0	70.3	72.1	74.4	72.8
RefCOCOg（测试）	69.0	71.9	70.7	72.7	74.8	73.7
RefCOCOg (val)	68.3	71.4	70.5	72.3	74.4	73.0
ST-VQA (val)	61.9	64.3	65.1	80.5	82.0	81.8
SciCap	165.1	159.5	156.9	183.3	177.2	172.7
ScienceQA	96.1	98.2	98.2	96.2	98.5	98.6
Screen2Words	113.3	117.8	122.8	114.0	119.1	123.4
TallyQA（复杂）	70.3	73.4	74.2	73.6	76.7	76.8
TallyQA（简单）	81.8	83.2	83.4	85.3	86.2	85.7
TextCaps	127.5	137.9	139.9	152.1	157.7	153.6
TextVQA（val）	59.6	64.0	64.7	75.2	76.6	76.2
VATEX	80.8	82.7	-	-	-	-
VQAv2（minival）	83.0	84.3	84.5	84.8	85.8	85.8
VizWizVQA (val)	76.4	78.1	78.7	77.5	78.6	78.9
WidgetCap	138.1	139.8	138.8	151.4	151.9	148.9
XM3600（平均值为 35）	42.8	44.5	45.2	43.2	44.6	45.2
XM3600（英语）	79.8	80.7	81.0	80.3	81.5	81.0
xGQA（平均 7 次）	58.6	61.4	61.1	60.4	62.6	62.1

其他基准

2015 年 ICDAR 附随

型号	精确率	召回率	F1
PaliGemma 2 3B	81.88	70.73	75.9

Total-Text

型号	精确率	召回率	F1
PaliGemma 2 3B	73.8.	74.54	74.17

FinTabNet

型号	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	99.18	98.94	99.43	99.21

PubTabNet

型号	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	97.6	97.31	97.99	97.84

GrandStaff

型号	CER	LER	SER
PaliGemma 2 3B	1.6	6.7	2.3

PubChem

PaliGemma 2 3B，完全匹配：94.8

DOCCI

型号	avg#char	avg#sent	NES %
PaliGemma 2 3B	529	7.74	28.42
PaliGemma 2 10B	521	7.45	20.27

avg#char：平均字符数
avg#sent：平均句子数
NES：非推理句子

MIMIC-CXR

型号	CIDEr	BLEU4	Rouge-L	RadGraph F1
PaliGemma 2 3B	19.9%	14.6%	31.92%	28.8%
PaliGemma 2 10B	17.4%	15%	32.41%	29.5%

视觉空间推理

型号	VSR 零次学习分组（测试）	VSR 随机拆分（测试）
PaliGemma 2 3B	0.75	0.82
PaliGemma 2 10B	0.80	0.87

道德和安全

评估方法

我们的评估方法包括根据相关内容政策进行结构化伦理和安全评估，包括：

针对涵盖儿童安全、内容安全和表征性伤害的提示进行人工评估。如需详细了解评估方法，请参阅 Gemma 模型卡片，其中包含图片描述和视觉问题解答设置。
图片到文本基准评估：与相关学术数据集（例如 FairFace 数据集）进行基准测试（Karkkainen 等人，2021 年）。

评估结果

在儿童安全、内容安全和表征性伤害等类别中，伦理和安全评估的人工评估结果在可接受的阈值范围内，符合内部政策。
除了进行严格的内部评估外，我们还使用 Perspective API（阈值为 0.8）来衡量针对 FairFace 数据集中图片生成的字幕中的恶意性、粗俗性和其他潜在问题。我们会针对每个感知到的性别、族裔和年龄属性，报告各子群体中观察到的最大值和中位数值。

指标	感知到的性别			种族			年龄段
模型大小	30 亿	10B	280 亿	30 亿	10B	280 亿	30 亿	10B	280 亿
	最大值
恶意	0.14%	0.15%	0.19%	0.29%	0.39%	0.39%	0.26%	0.18%	0.32%
身份攻击	0.04%	0.02%	0.02%	0.13%	0.06%	0.06%	0.06%	0.03%	0.06%
侮辱内容	0.17%	0.25%	0.17%	0.37%	0.52%	0.52%	0.27%	0.39%	0.24%
威胁	0.55%	0.43%	0.57%	0.83%	0.48%	0.48%	0.64%	0.43%	0.64%
脏话	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
	中位数
恶意	0.13%	0.10%	0.18%	0.07%	0.07%	0.14%	0.12%	0.08%	0.12%
身份攻击	0.02%	0.01%	0.02%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
侮辱内容	0.15%	0.23%	0.14%	0.14%	0.17%	0.13%	0.09%	0.18%	0.16%
威胁	0.35%	0.27%	0.41%	0.28%	0.19%	0.42%	0.27%	0.31%	0.40%
脏话	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

使用和限制

预期用途

开放式视觉语言模型 (VLM) 在各个行业和领域有着广泛的应用。以下可能用途并非详尽无遗。此列表旨在提供有关模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。Gemma 使用限制政策中列出了 Gemma 模型的禁止用途。

针对特定视觉语言任务进行微调：

预训练模型可用于微调各种视觉语言任务，例如为图片添加说明、为短视频配字幕、视觉问答、文本阅读、对象检测和对象分割。
预训练模型可以针对特定领域进行微调，例如遥感问答、盲人提出的视觉问题、科学问答、描述界面元素功能。
预训练的模型可以针对具有非文本输出（例如边界框或分割掩码）的任务进行微调。

视觉-语言研究：

预训练模型和微调模型可以为研究人员开展 VLM 技术实验、开发算法并为该领域的发展做出贡献奠定基础。

道德注意事项和风险

视觉-语言模型 (VLM) 的开发引发了一些伦理问题。在创建开放式模型时，我们仔细考虑了以下事项：

偏见和公平性
- 使用大规模真实图像-文本数据训练的 VLM 可能会反映训练材料中嵌入的社会文化偏见。这些模型经过了仔细审核，并采用了此卡片中所述的输入数据预处理流程和后续评估。
虚假信息和滥用
- VLM 可能会被滥用来生成虚假、误导性或有害的文本。
- 我们提供了有关负责任地使用该模型的指南，请参阅 Responsible Generative AI 工具包。
公开透明，责任明确
- 此模型卡片总结了模型的架构、功能、限制和评估流程的详细信息。
- 以负责任的方式开发的开放模型可让 AI 生态系统中的开发者和研究人员使用 VLM 技术，从而分享创新成果。

发现的风险和缓解措施：

偏见的延续：建议在模型训练、微调和其他用例期间持续监控（使用评估指标、人工审核）并探索去偏见技术。
生成有害内容：内容安全机制和准则至关重要。我们建议开发者谨慎行事，并根据其特定的产品政策和应用使用情形实施适当的内容安全保护措施。
出于恶意目的的滥用：技术限制以及对开发者和最终用户的培训有助于减少 LLM 的恶意应用。我们提供了教育资源和举报机制，供用户举报滥用行为：请参阅 Responsible Generative AI Toolkit。Gemma 使用限制政策中列出了 Gemma 模型的禁止用途。
隐私权违规：模型是根据经过过滤以移除特定个人信息和敏感数据的数据训练的。我们鼓励开发者采用可保护隐私的技术来遵守隐私权法规。

限制

从底层 Gemma 2 模型继承的大多数限制仍然适用：
- VLM 更擅长处理可通过清晰的提示和说明来界定的任务。开放式或高度复杂的任务可能很难完成。
- 自然语言本身就很复杂。VLM 可能难以理解细微的细微差别、讽刺或比喻性语言。
- VLM 会根据从训练数据集中学到的信息生成回答，但它们不是知识库。它们可能会生成不正确或过时的实情陈述。
- VLM 依赖于语言和图片中的统计模式。在某些情况下，它们可能无法运用常识推理。
PaliGemma 2 的首要设计目标是作为通用预训练模型，以便针对专门任务进行微调。因此，其“开箱即用”或“零次学习”性能可能不如专为通用用途而设计的模型。
PaliGemma 2 不是多轮对话聊天机器人。它适用于单轮图片和文本输入。