PaliGemma 模型卡片

模型页面PaliGemma

资源和技术文档

使用条款条款

作者:Google

型号信息

模型摘要

说明

PaliGemma 是一种功能多样的轻量级视觉语言模型 (VLM),其灵感来自于 PaLI-3 基于开放组件,例如 SigLIP 视觉模型Gemma 语言模型。它接受图片和文字 作为输入并生成文本作为输出,支持多种语言。时间是 专为在各种操作系统上实现一流的微调性能而设计 视觉语言任务,例如图片和短视频说明、视觉问题 回答、文本读取、对象检测和对象分割。

模型架构

PaliGemma 是由 Transformer 解码器Vision Transformer 图像 编码器,总共拥有 30 亿个参数。 文本解码器从 Gemma-2B。图像编码器 从 SigLIP-So400m/14。 PaliGemma 按照 PaLI-3 食谱进行训练。

输入和输出

  • 输入:图片和文本字符串,例如为图片说明文字的提示,或 问题。
  • 输出:为响应输入而生成的文本,例如 图片、问题的答案、对象边界框的列表 坐标或分割代码词。

模型数据

预训练数据集

PaliGemma 使用以下数据集组合进行预训练:

数据责任过滤

以下过滤条件应用于 WebLI,目的是训练 PaliGemma 干净数据:

  • 色情图片过滤:此过滤器可滤除被认定为属于 色情内容。
  • 文本安全过滤:我们会识别并过滤掉 包含不安全文本不安全的文字是指被认定为包含或讲述内容的任何文字 儿童性虐待图像、色情内容、粗言秽语或其他冒犯性内容。
  • 文本恶意过滤:我们进一步使用 Perspective API, API来识别和滤除 搭配被认定为侮辱、淫秽、仇恨或其他恶意言论的文字。
  • 文字个人信息过滤:我们过滤掉了某些个人信息 使用 Cloud Data Loss Prevention Cloud Data Loss Prevention, (DLP) API 来保护 保护个人隐私。社会保障号和 其他敏感信息类型已被移除。
  • 其他方法:根据 Google 文档中的内容质量和安全 符合我们的政策和做法。

实现信息

硬件

PaliGemma 采用最新一代张量处理单元 (Tensor Processing Unit) 进行训练 (TPU) 硬件 (TPUv5e)。

软件

使用 JAX 完成训练, 亚麻 TFDSbig_vision

JAX 让研究人员能够充分利用最新一代硬件, 包括 TPU,有助于更快、更高效地训练大型模型。

TFDS 用于访问数据集,Flax 用于模型架构。通过 big_vision 中发布了 PaliGemma 微调代码和推理代码 GitHub 代码库。

评估信息

基准测试结果

为了验证 PaliGemma 是否能够转移到 因此,我们微调了每项任务的预训练模型。此外,我们还 来训练混合模型。我们会在 以体现哪些任务能从中受益, 更高的分辨率。需要注意的是,上述任务或数据集 预训练模型,其图片会明确地从 Web 规模的预训练数据。

单个任务(微调单个任务)

基准(模块序列拆分) 指标(拆分) pt-224 pt-448 pt-896
字幕
COCO 字幕(训练 + 休息) CIDEr (val) 141.92 144.60
NoCaps(评估 COCO 字幕传输) CIDEr (val) 121.72 123.58
COCO-35L(模块序列) CIDEr 开发(en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600(评估 COCO-35L 传输) CIDEr 开发(en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps(训练) CIDEr (val) 127.48 153.94
SciCap(第一句话,无子图)(train+val) CIDEr/BLEU-4(测试)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDEr(测试) 117.57 119.59
微件字幕 (train+dev) CIDEr(测试) 136.07 148.36
问答
VQAv2(训练 + 验证) 准确率(测试服务器 - 标准) 83.19 85.64
MMVP(VQAv2 传输的评估) 成对准确率 47.33 45.33
POPE(VQAv2 传输的评估) 准确率(随机性/流行度/对抗性)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA(模块序列) 准确率(值) 63.54 岁 63.15 日
A-OKVQA (MC)(训练 + 值) 准确率(测试服务器) 76.37 76.90
A-OKVQA (DA)(训练 + 值) 准确率(测试服务器) 61.85 63.22
GQA (train_balanced+val_balanced) 准确率(testdev 平衡) 65.61 67.03
xGQA(GQA 传输评估) 平均准确度(bn、de、en、id、ko、pt、ru、zh) 58.37 59.07
NLVR2(训练 + 开发) 准确率(测试) 90.02 88.93
MaRVL(NLVR2 传输评估) 平均准确度(测试)(id、sw、ta、tr、zh) 80.57 76.78
AI2D(训练) 准确率(测试) 72.12 73.28
ScienceQA(图片子集,无 CoT)(训练 + 值) 准确率(测试) 95.39 95.93
RSVQA-LR(非数字)(train+val) 平均准确率(测试) 92.65 93.11 日
RSVQA-HR(非数字)(train+val) 平均准确率(测试/测试 2)
92.61
90.58
92.79
90.54
ChartQA (human+aug)x(train+val) 平均放松准确率(test_human、test_aug) 57.08 71.36
VizWiz VQA(模块序列 + 值) 准确率(测试服务器 - 标准) 73.7 75.52
TallyQA(模块序列) 准确率 (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA(训练 + 值) 准确率(测试) 72.32 74.61 74.93
TextVQA(训练 + 值) 准确率(测试服务器 - 标准) 55.47 73.15 76.48
DocVQA(训练 + 值) ANLS(测试服务器) 43.74 78.02 84.77
信息图 VQA(训练 + 值) ANLS(测试服务器) 28.46 40.47 47.75
SceneText VQA (train+val) ANLS(测试服务器) 63.29 81.82 84.40
细分
RefCOCO(合并了 refcoco、refcoco+、refcocog,不包括 val 和测试图片) MIoU(验证)refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70 月 17 日
76.94
72.18 日
72.22
视频任务(字幕/质量检查)
MSR-VTT(字幕) CIDEr(测试) 70.54 美元
MSR-VTT(质量检查) 准确率(测试) 50.09
ActivityNet(字幕) CIDEr(测试) 34.62
ActivityNet(质量检查) 准确率(测试) 50.78
VATEX(字幕) CIDEr(测试) 79.73
MSVD(质量检查) 准确率(测试) 60.22 日

混合模型(微调混合转移任务)

基准 指标(拆分) mix-224 mix-448
MMVP 成对准确率 46.00 45.33
波普 准确率(随机性/流行度/对抗性)
88.00
86.63
85.67
89.37
88.40
87.47

道德与安全

评估方法

我们的评估方法包括结构化评估和内部红队判研 并测试相关内容政策红队判研 不同团队,每个团队都有不同的目标和人工评估指标。这些 根据许多不同类别对模型进行了评估, 包括:

  • 针对涉及儿童安全、内容安全和 代表性伤害。请参阅 Gemma 模型 卡片 但使用图片标注和视觉影像来 问答设置。
  • Image-to-Text 基准评估:根据相关学术界定的基准 (Karkkainen 等人, 2021 年)。

评估结果

  • 道德和安全评估的人工评估结果在 达到内部的门槛 政策 针对儿童安全、内容安全和代表性等类别 伤害。
  • 除了可靠的内部评估,我们还使用 Perspective API (阈值为 0.8),以衡量恶意评论、脏话和其他 针对来自 FairFace 的图片,在生成的图片说明中发现存在问题。 数据集。我们会报告在各子群组中观察到的最大值和中位数值 针对每个性别、民族和年龄属性生成样本。
指标 性别感知 种族 年龄段
最大值 中位数 最大值 中位数 最大值 中位数
恶意 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
身份攻击 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
侮辱内容 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
威胁 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
脏话 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

用法和限制

预期用途

开放式视觉语言模型 (VLM) 广泛应用于 不同行业和领域。下面的潜在用途列表 全面。此列表旨在提供一些背景信息 模型创建者考虑作为模型一部分的 培训和发展。

微调特定的视觉语言任务:

  • 预训练模型可以针对各种视觉语言进行微调 例如图片说明、短视频说明、视觉问题 回答、文本读取、对象检测和对象分割。
  • 预训练模型可以针对特定领域进行微调,例如远程 感知问题解答、盲人提出的视觉问题、 科学问答、说明界面元素功能。
  • 可以针对具有非文本输出的任务对预训练模型进行微调 例如边界框或分割掩码。

视觉语言研究:

  • 预训练模型和经微调的模型可以作为 实验 VLM 技术、开发算法,以及 为这个领域的发展贡献了自己的力量。

道德考量和风险

视觉语言模型 (VLM) 的开发带来了一些道德方面的 问题。在创建开放式模型时,我们仔细考虑了以下方面:

  • 偏见和公平性 <ph type="x-smartling-placeholder">
      </ph>
    • 基于大规模的真实图像-文本数据训练的 VLM 培训材料中嵌入的社会文化偏见。这些模型 经过仔细审查,所述输入数据预处理 此卡片中报告的后续评估。
  • 虚假信息和滥用 <ph type="x-smartling-placeholder">
      </ph>
    • VLM 可能会被滥用,生成虚假、误导性或 是有害的。
    • 提供了关于如何以负责任的方式使用模型的准则,请参阅 Responsible AI 工具包。
  • 公开透明、诚信负责 <ph type="x-smartling-placeholder">
      </ph>
    • 此模型卡片总结了架构 能力、限制和评估流程。
    • 以负责任的方式开发的开放式模式提供了 使开发者能够使用 VLM 技术,并实现创新 研究人员。

发现风险并采取缓解措施:

  • 持续偏见:建议持续监控 (使用评估指标和人工审核)和探索消除偏见 模型训练、微调和其他使用场景中用到的技术。
  • 生成有害内容的:内容的机制和指南 都至关重要我们建议开发者保持谨慎, 根据其具体要求采取适当的内容安全措施 产品政策和应用用例。
  • 滥用于恶意目的:技术限制以及开发者和 最终用户培训有助于缓解 LLM 的恶意应用行为。 可供用户举报滥用行为的教育资源和举报机制包括 请参阅“Responsible Generative AI Toolkit”。禁止使用 Gemma Gemma 使用限制政策。
  • 侵犯隐私权:模型是在经过过滤以移除的数据的基础上训练得出的 某些个人信息和敏感数据。鼓励开发者 通过隐私保护技术遵守隐私权法规。

限制

  • 从底层 Gemma 模型继承的大多数限制仍然适用: <ph type="x-smartling-placeholder">
      </ph>
    • VLM 更擅长用清晰的提示来说明任务, 操作说明。开放式任务或高度复杂的任务可能难度较大。
    • 自然语言本质上很复杂。VLM 可能难以理解 细微的细微差别、讽刺或具象化的语言。
    • VLM 根据从他们的 但它们不是知识库。它们可能会 不正确或过时的事实陈述。
    • VLM 依赖于语言和图片中的统计模式。他们可能 无法在特定情况下运用常识推理。
  • PaliGemma 的设计初衷,就是要将其用作 来微调特殊任务。因此,它“开箱即用”或 “零样本”可能落后于专为 。
  • PaliGemma 不是一个多轮聊天机器人。它专为 图片和文字输入