查看 Gemma Cookbook 代码库，了解生成和优化示例！了解详情

此页面由 Cloud Translation API 翻译。

PaliGemma 模型卡片

模型页面：PaliGemma

资源和技术文档：

使用条款：条款

作者：Google

型号信息

模型摘要

说明

PaliGemma 是一种功能多样的轻量级视觉语言模型 (VLM)，其灵感来自于 PaLI-3 基于开放组件，例如 SigLIP 视觉模型和 Gemma 语言模型。它接受图片和文字作为输入并生成文本作为输出，支持多种语言。时间是专为在各种操作系统上实现一流的微调性能而设计视觉语言任务，例如图片和短视频说明、视觉问题回答、文本读取、对象检测和对象分割。

模型架构

PaliGemma 是由 Transformer 解码器和 Vision Transformer 图像编码器，总共拥有 30 亿个参数。文本解码器从 Gemma-2B。图像编码器从 SigLIP-So400m/14。 PaliGemma 按照 PaLI-3 食谱进行训练。

输入和输出

输入：图片和文本字符串，例如为图片说明文字的提示，或问题。
输出：为响应输入而生成的文本，例如图片、问题的答案、对象边界框的列表坐标或分割代码词。

模型数据

预训练数据集

PaliGemma 使用以下数据集组合进行预训练：

WebLI：WebLI（网络语言图片）是基于公共网络构建的 Web 级多语言“图片-文本”数据集。答使用各种 WebLI 分块来获取多样的模型功能，例如视觉语义理解、对象本地化，视觉上的文字理解、多语言功能等
CC3M-35L：网页中的精选英语 image-alt_text 对（Sharma 等）等，2018 年）。我们使用了 Google Cloud Translation API 翻译成 34 其他语言。
VQ²A-CC3M-35L/VQG-CC3M-35L:：VQ2A-CC3M 的子集（Changpinyo 等人， 2022a）转换为 CC3M-35L 的新增 34 种语言，Google Cloud Translation API。
OpenImages：检测和对象感知问题和解答（Piergiovanni 等人，2022 年），由 OpenImages 数据集中手动制定的规则。
WIT：从维基百科收集的图片和文字（Srinivasan 等人， 2021 年）。

数据责任过滤

以下过滤条件应用于 WebLI，目的是训练 PaliGemma 干净数据：

色情图片过滤：此过滤器可滤除被认定为属于色情内容。
文本安全过滤：我们会识别并过滤掉包含不安全文本不安全的文字是指被认定为包含或讲述内容的任何文字儿童性虐待图像、色情内容、粗言秽语或其他冒犯性内容。
文本恶意过滤：我们进一步使用 Perspective API， API来识别和滤除搭配被认定为侮辱、淫秽、仇恨或其他恶意言论的文字。
文字个人信息过滤：我们过滤掉了某些个人信息使用 Cloud Data Loss Prevention Cloud Data Loss Prevention， (DLP) API 来保护保护个人隐私。社会保障号和其他敏感信息类型已被移除。
其他方法：根据 Google 文档中的内容质量和安全符合我们的政策和做法。

实现信息

硬件

PaliGemma 采用最新一代张量处理单元 (Tensor Processing Unit) 进行训练 (TPU) 硬件 (TPUv5e)。

软件

使用 JAX 完成训练，亚麻 TFDS 和 big_vision。

JAX 让研究人员能够充分利用最新一代硬件，包括 TPU，有助于更快、更高效地训练大型模型。

TFDS 用于访问数据集，Flax 用于模型架构。通过 big_vision 中发布了 PaliGemma 微调代码和推理代码 GitHub 代码库。

评估信息

基准测试结果

为了验证 PaliGemma 是否能够转移到因此，我们微调了每项任务的预训练模型。此外，我们还来训练混合模型。我们会在以体现哪些任务能从中受益，更高的分辨率。需要注意的是，上述任务或数据集预训练模型，其图片会明确地从 Web 规模的预训练数据。

单个任务（微调单个任务）

基准（模块序列拆分）	指标（拆分）	pt-224	pt-448	pt-896
字幕
COCO 字幕（训练 + 休息）	CIDEr (val)	141.92	144.60
NoCaps（评估 COCO 字幕传输）	CIDEr (val)	121.72	123.58
COCO-35L（模块序列）	CIDEr 开发（en/avg-34/avg）	139.2 115.8 116.4	141.2 118.0 118.6
XM3600（评估 COCO-35L 传输）	CIDEr 开发（en/avg-34/avg）	78.1 41.3 42.4	80.0 41.9 42.9
TextCaps（训练）	CIDEr (val)	127.48	153.94
SciCap（第一句话，无子图）(train+val)	CIDEr/BLEU-4（测试）	162.25 0.192	181.49 0.211
Screen2words (train+dev)	CIDEr（测试）	117.57	119.59
微件字幕 (train+dev)	CIDEr（测试）	136.07	148.36
问答
VQAv2（训练 + 验证）	准确率（测试服务器 - 标准）	83.19	85.64
MMVP（VQAv2 传输的评估）	成对准确率	47.33	45.33
POPE（VQAv2 传输的评估）	准确率（随机性/流行度/对抗性）	87.80 85.87 84.27	88.23 86.77 85.90
OKVQA（模块序列）	准确率（值）	63.54 岁	63.15 日
A-OKVQA (MC)（训练 + 值）	准确率（测试服务器）	76.37	76.90
A-OKVQA (DA)（训练 + 值）	准确率（测试服务器）	61.85	63.22
GQA (train_balanced+val_balanced)	准确率（testdev 平衡）	65.61	67.03
xGQA（GQA 传输评估）	平均准确度（bn、de、en、id、ko、pt、ru、zh）	58.37	59.07
NLVR2（训练 + 开发）	准确率（测试）	90.02	88.93
MaRVL（NLVR2 传输评估）	平均准确度（测试）（id、sw、ta、tr、zh）	80.57	76.78
AI2D（训练）	准确率（测试）	72.12	73.28
ScienceQA（图片子集，无 CoT）（训练 + 值）	准确率（测试）	95.39	95.93
RSVQA-LR（非数字）(train+val)	平均准确率（测试）	92.65	93.11 日
RSVQA-HR（非数字）(train+val)	平均准确率（测试/测试 2）	92.61 90.58	92.79 90.54
ChartQA (human+aug)x(train+val)	平均放松准确率（test_human、test_aug）	57.08	71.36
VizWiz VQA（模块序列 + 值）	准确率（测试服务器 - 标准）	73.7	75.52
TallyQA（模块序列）	准确率 (test_simple/test_complex)	81.72 69.56	84.86 72.27
OCR-VQA（训练 + 值）	准确率（测试）	72.32	74.61	74.93
TextVQA（训练 + 值）	准确率（测试服务器 - 标准）	55.47	73.15	76.48
DocVQA（训练 + 值）	ANLS（测试服务器）	43.74	78.02	84.77
信息图 VQA（训练 + 值）	ANLS（测试服务器）	28.46	40.47	47.75
SceneText VQA (train+val)	ANLS（测试服务器）	63.29	81.82	84.40
细分
RefCOCO（合并了 refcoco、refcoco+、refcocog，不包括 val 和测试图片）	MIoU（验证）refcoco/refcoco+/refcocog	73.40 68.32 67.65	75.57 69.76 70 月 17 日	76.94 72.18 日 72.22
视频任务（字幕/质量检查）
MSR-VTT（字幕）	CIDEr（测试）	70.54 美元
MSR-VTT（质量检查）	准确率（测试）	50.09
ActivityNet（字幕）	CIDEr（测试）	34.62
ActivityNet（质量检查）	准确率（测试）	50.78
VATEX（字幕）	CIDEr（测试）	79.73
MSVD（质量检查）	准确率（测试）	60.22 日

混合模型（微调混合转移任务）

基准	指标（拆分）	mix-224	mix-448
MMVP	成对准确率	46.00	45.33
波普	准确率（随机性/流行度/对抗性）	88.00 86.63 85.67	89.37 88.40 87.47

基准

指标（拆分）

mix-224

mix-448

MMVP

成对准确率

46.00

45.33

波普

准确率（随机性/流行度/对抗性）

88.00

86.63

85.67

89.37

88.40

87.47

道德与安全

评估方法

我们的评估方法包括结构化评估和内部红队判研并测试相关内容政策红队判研不同团队，每个团队都有不同的目标和人工评估指标。这些根据许多不同类别对模型进行了评估，包括：

针对涉及儿童安全、内容安全和代表性伤害。请参阅 Gemma 模型卡片但使用图片标注和视觉影像来问答设置。
Image-to-Text 基准评估：根据相关学术界定的基准（Karkkainen 等人， 2021 年）。

评估结果

道德和安全评估的人工评估结果在达到内部的门槛政策针对儿童安全、内容安全和代表性等类别伤害。
除了可靠的内部评估，我们还使用 Perspective API （阈值为 0.8），以衡量恶意评论、脏话和其他针对来自 FairFace 的图片，在生成的图片说明中发现存在问题。数据集。我们会报告在各子群组中观察到的最大值和中位数值针对每个性别、民族和年龄属性生成样本。

指标	性别感知		种族		年龄段
	最大值	中位数	最大值	中位数	最大值	中位数
恶意	0.04%	0.03%	0.08%	0.00%	0.09%	0.00%
身份攻击	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
侮辱内容	0.06%	0.04%	0.09%	0.07%	0.16%	0.00%
威胁	0.06%	0.05%	0.14%	0.05%	0.17%	0.00%
脏话	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

用法和限制

预期用途

开放式视觉语言模型 (VLM) 广泛应用于不同行业和领域。下面的潜在用途列表全面。此列表旨在提供一些背景信息模型创建者考虑作为模型一部分的培训和发展。

微调特定的视觉语言任务：

预训练模型可以针对各种视觉语言进行微调例如图片说明、短视频说明、视觉问题回答、文本读取、对象检测和对象分割。
预训练模型可以针对特定领域进行微调，例如远程感知问题解答、盲人提出的视觉问题、科学问答、说明界面元素功能。
可以针对具有非文本输出的任务对预训练模型进行微调例如边界框或分割掩码。

视觉语言研究：

预训练模型和经微调的模型可以作为实验 VLM 技术、开发算法，以及为这个领域的发展贡献了自己的力量。

道德考量和风险

视觉语言模型 (VLM) 的开发带来了一些道德方面的问题。在创建开放式模型时，我们仔细考虑了以下方面：

偏见和公平性 <ph type="x-smartling-placeholder">
- 基于大规模的真实图像-文本数据训练的 VLM 培训材料中嵌入的社会文化偏见。这些模型经过仔细审查，所述输入数据预处理此卡片中报告的后续评估。
虚假信息和滥用 <ph type="x-smartling-placeholder">
- VLM 可能会被滥用，生成虚假、误导性或是有害的。
- 提供了关于如何以负责任的方式使用模型的准则，请参阅 Responsible AI 工具包。
公开透明、诚信负责 <ph type="x-smartling-placeholder">
- 此模型卡片总结了架构能力、限制和评估流程。
- 以负责任的方式开发的开放式模式提供了使开发者能够使用 VLM 技术，并实现创新研究人员。

发现风险并采取缓解措施：

持续偏见：建议持续监控（使用评估指标和人工审核）和探索消除偏见模型训练、微调和其他使用场景中用到的技术。
生成有害内容的：内容的机制和指南都至关重要我们建议开发者保持谨慎，根据其具体要求采取适当的内容安全措施产品政策和应用用例。
滥用于恶意目的：技术限制以及开发者和最终用户培训有助于缓解 LLM 的恶意应用行为。可供用户举报滥用行为的教育资源和举报机制包括请参阅“Responsible Generative AI Toolkit”。禁止使用 Gemma Gemma 使用限制政策。
侵犯隐私权：模型是在经过过滤以移除的数据的基础上训练得出的某些个人信息和敏感数据。鼓励开发者通过隐私保护技术遵守隐私权法规。

限制

从底层 Gemma 模型继承的大多数限制仍然适用： <ph type="x-smartling-placeholder">
- VLM 更擅长用清晰的提示来说明任务，操作说明。开放式任务或高度复杂的任务可能难度较大。
- 自然语言本质上很复杂。VLM 可能难以理解细微的细微差别、讽刺或具象化的语言。
- VLM 根据从他们的但它们不是知识库。它们可能会不正确或过时的事实陈述。
- VLM 依赖于语言和图片中的统计模式。他们可能无法在特定情况下运用常识推理。
PaliGemma 的设计初衷，就是要将其用作来微调特殊任务。因此，它“开箱即用”或 “零样本”可能落后于专为。
PaliGemma 不是一个多轮聊天机器人。它专为图片和文字输入