PaliGemma 模型卡片

模型页面PaliGemma

资源和技术文档

使用条款条款

作者:Google

模型信息

模型摘要

说明

PaliGemma 是一个通用的轻量级视觉语言模型 (VLM),其灵感来自 PaLI-3,并基于 SigLIP 视觉模型Gemma 语言模型等开放组件。它同时接受图片和文本作为输入,并生成文本作为输出,支持多种语言。它经过专门设计,可在各种视觉语言任务(例如图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割)中实现一流的微调性能。

模型架构

PaliGemma 由 Transformer 解码器Vision Transformer 图像编码器组成,共计有 30 亿个参数。文本解码器从 Gemma-2B 初始化。图片编码器使用 SigLIP-So400m/14 进行初始化。PaliGemma 是按照 PaLI-3 方法训练的。

输入和输出

  • 输入:图片和文本字符串,例如为图片添加说明的提示或问题。
  • 输出:为响应输入而生成的文本,如图片的说明、问题的答案、对象边界框坐标列表或分割代码词。

模型数据

预训练数据集

PaliGemma 已基于以下数据集组合进行预训练:

数据责任过滤

以下过滤条件适用于 WebLI,目标是使用干净的数据训练 PaliGemma:

  • 色情图片过滤:此过滤条件会移除被认定为具有色情性质的图片。
  • 文本安全过滤:我们会识别并过滤掉与不安全文本配对的图片。不安全文本是指任何被认定为包含或与 CSAI、色情内容、粗言秽语或其他冒犯性内容有关的文本。
  • 文本恶意言论过滤:我们进一步使用 Perspective API 识别并过滤掉被认定为侮辱、淫秽、仇恨或其他恶意言论的图片。
  • 文本个人信息过滤:我们使用 Cloud Data Loss Prevention (DLP) API 过滤了某些个人信息和其他敏感数据,以保护个人的隐私。社会保障号等标识符和其他敏感信息类型已被移除。
  • 其他方法:根据我们的政策和做法根据内容质量和安全进行过滤。

实现信息

硬件

PaliGemma 使用最新一代的张量处理单元 (TPU) 硬件 (TPUv5e) 进行训练。

软件

使用 JAXFlaxTFDSbig_vision 进行训练。

借助 JAX,研究人员能够利用最新一代硬件(包括 TPU),以便更快速、更高效地训练大型模型。

TFDS 用于访问数据集,Flax 用于模型架构。PaliGemma 微调代码和推理代码在 big_vision GitHub 代码库中发布。

评估信息

基准测试结果

为了验证 PaliGemma 对各种学术任务的可转移性,我们会针对每项任务微调预训练模型。此外,我们还使用混合传输任务来训练混合模型。我们会报告不同分辨率下的结果,以便让您了解哪些任务能从更高的分辨率中受益。重要的是,这些任务或数据集都不是预训练模型组合的一部分,并且其图片已从 Web 级预训练数据中明确移除。

单个任务(针对单个任务进行微调)

基准(模块序列拆分) 指标(拆分) pt-224 pt-448 pt-896
字幕
COCO 字幕(模块序列+调整) CIDEr (val) 141.92 144.60
NoCaps(COCO 字幕传输评估) CIDEr (val) 121.72 123.58
COCO-35L(模块序列) CIDEr 开发(en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600(COCO-35L 传输等效值) CIDEr 开发(en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps(模块序列) CIDEr (val) 127.48 153.94
SciCap(第一句,无子图)(train+val) CIDEr/BLEU-4(测试)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDEr(测试) 117.57 119.59
widget 字幕 (train+dev) CIDEr(测试) 136.07 148.36
问答
VQAv2(训练+验证) 准确率(测试服务器 - std) 83.19 85.64
MMVP(VQAv2 传输评估) 配对准确度 47.33 岁 45.33 岁
POPE(VQAv2 传输的评估值) 准确率(随机/热门/对抗性)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA(模块序列) 准确度 (val) 63.54 63.15 岁
A-OKVQA (MC)(模块序列 + 值) 准确率(测试服务器) 76.37 76.90
A-OKVQA (DA)(模块序列 + 值) 准确率(测试服务器) 61.85 63.22
GQA (train_balanced+val_balanced) 准确率(经过测试、平衡) 65.61 67.03
xGQA(GQA 传输评估) 平均准确度(bn、de、en、id、ko、pt、ru、zh) 58.37 岁 59.07
NLVR2(模块序列+开发) 准确率(测试) 90.02 88.93
MaRVL(NLVR2 传输的评估值) 平均准确率(测试)(id、sw、ta、tr、zh) 80.57 76.78
AI2D(模块序列) 准确率(测试) 72.12 73.28
ScienceQA(图片子集,无 CoT)(模块序列 + 值) 准确率(测试) 95.39 美元 95.93
RSVQA-LR(非数值)(模块序列 + 值) 平均准确率(测试) 92.65 93.11
RSVQA-HR(非数值)(train+val) 平均准确率 (test/test2)
92.61
90.58
92.79
90.54
ChartQA (human+aug)x(train+val) 平均放宽精度(test_human、test_aug) 57.08 71.36 岁
VizWiz VQA(模块序列 + 值) 准确率(测试服务器 - std) 土耳其里拉 75.52
TallyQA(模块序列) 准确率 (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA(模块序列 + 值) 准确率(测试) 72.32 74.61 74.93
TextVQA (train+val) 准确率(测试服务器 - std) 55.47 岁 73.15 岁 76.48
DocVQA (train+val) ANLS(测试服务器) 43.74 岁 78.02 84.77
信息图 VQA(模块序列 + 值) ANLS(测试服务器) 28.46 岁 40.47 岁 47.75 岁
SceneText VQA (train+val) ANLS(测试服务器) 63.29 岁 81.82 84.40
分割
RefCOCO(包含 refcoco、refcoco+、refcog(不包括 val 和测试图片)的组合) MIoU(验证)refco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
视频任务(字幕/质量检查)
MSR-VTT(字幕) CIDEr(测试) 70.54 岁
MSR-VTT(质量检查) 准确率(测试) 50.09 欧元
ActivityNet(字幕) CIDEr(测试) 34.62 岁
ActivityNet(质量检查) 准确率(测试) 50.78
VATEX(字幕) CIDEr(测试) 79.73 岁
MSVD(质量检查) 准确率(测试) 60.22 岁

混合模型(对混合传输任务进行微调)

基准 指标(拆分) mix-224 mix-448
MMVP 配对准确度 46.00 45.33 岁
POPE 准确率(随机/热门/对抗性)
88.00
86.63
85.67
89.37
88.40
87.47

道德与安全

评估方法

我们的评估方法包括结构化评估和针对相关内容政策的内部红队测试。许多不同的团队实施了红队判研,每个团队都有不同的目标和人工评估指标。这些模型针对与道德和安全相关的一些不同类别进行了评估,包括:

  • 对涉及儿童安全、内容安全和代表性伤害的提示进行人工评估。如需详细了解评估方法,请参阅 Gemma 模型卡片,但其中介绍了图片标注和视觉问答设置。
  • Image-to-Text 基准评估:根据 FairFace 数据集等相关学术数据集进行基准测试(Karkkainen 等,2021 年)进行调整得到的。

评估结果

  • 道德和安全评估的人工评估结果在可接受阈值以内,以确保符合针对儿童安全、内容安全和代表性伤害等类别的内部政策
  • 除了强大的内部评估之外,我们还使用 Perspective API(阈值为 0.8)来衡量为来自 FairFace 数据集的图片所生成的字幕中的恶意言论、脏话和其他潜在问题。我们会报告在各个子群体中观察到的性别、民族和年龄属性的最大值和中位数。
指标 自认为的性别 种族 年龄段
最大值 中位数 最大值 中位数 最大值 中位数
恶意 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
身份攻击 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
侮辱内容 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
威胁 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
脏话 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

使用和限制

预期用途

开放式 Vision 语言模型 (VLM) 在各种行业和领域都有了广泛的应用。下面列出的潜在用途并不全面。此列表旨在提供模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。

微调特定的视觉语言任务:

  • 这些预训练模型可以针对各种视觉语言任务进行微调,例如图片标注、短视频字幕、视觉问答、文本阅读、对象检测和对象分割。
  • 预训练模型可以针对特定领域进行微调,例如遥感问答、盲人提出的视觉问题、科学问答、描述界面元素的功能。
  • 可以针对具有非文本输出(例如边界框或分割掩码)的任务微调预训练模型。

视觉语言研究:

  • 预训练模型和经微调的模型可以作为研究人员使用 VLM 技术进行实验、开发算法以及推动该领域发展的基础。

道德考虑和风险

视觉语言模型 (VLM) 的发展引发了一些道德问题。在创建开放模型时,我们仔细考虑了以下因素:

  • 偏差和公平性
    • 使用大规模的真实图像文本数据训练的 VLM 可以反映训练材料中嵌入的社会文化偏见。这些模型经过了仔细审查,进行了此卡片中描述的输入数据预处理和后期评估。
  • 虚假信息和滥用
    • VLM 可能会被滥用以生成虚假、误导性或有害文本。
    • 我们提供了有关如何以负责任的方式使用模型的指南,请参阅 Responsible Generative AI Toolkit。
  • 公开透明、诚信负责
    • 此模型卡片总结了有关模型架构、功能、限制和评估流程的详细信息。
    • 以负责任的方式开发的开放式模型使整个 AI 生态系统中的开发者和研究人员都能使用 VLM 技术,从而为分享创新提供了机会。

识别风险并缓解风险:

  • 偏见长久存续:建议在模型训练、微调和其他应用场景中执行持续监控(使用评估指标和人工审核)并探索去偏向技术。
  • 有害内容的生成:确保内容安全的机制和准则至关重要。建议开发者谨慎行事,根据其具体产品政策和应用用例采取适当的内容保护措施。
  • 出于恶意目的滥用:技术限制以及开发者和最终用户教育有助于减轻 LLM 的恶意应用攻击。我们提供了一些教育资源和报告机制,以便用户举报滥用情况。请参阅 Responsible Generative AI Toolkit。如需了解 Gemma 模型的禁止使用行为,请参阅 Gemma 使用限制政策。
  • 侵犯隐私权:模型是利用过滤后的数据进行训练的,用于移除某些个人信息和敏感数据。我们鼓励开发者使用隐私保护技术遵守隐私权法规。

限制

  • 从底层 Gemma 模型继承的大多数限制仍然适用:
    • VLM 更擅长使用明确提示和说明作为框架的任务。开放式或高度复杂的任务可能极具挑战性。
    • 自然语言本质上非常复杂。VLM 可能难以理解细微的细微差别、讽刺或比喻性语言。
    • VLM 根据从训练数据集中学到的信息生成响应,但它们不是知识库。它们可能会生成不正确或过时的事实陈述。
    • VLM 依赖于语言和图片中的统计模式。在某些情况下,他们可能缺乏运用常识推理的能力。
  • PaliGemma 的设计首要用途是用作通用的预训练模型,以便针对专业任务进行微调。因此,其“开箱即用”或“零样本”性能可能会落后于专门为其设计的模型。
  • PaliGemma 不是多轮聊天机器人。它专为单轮图片和文本输入而设计。