PaliGemma 1 模型卡片

模型页面PaliGemma

资源和技术文档

使用条款条款

作者:Google

型号信息

模型摘要

说明

PaliGemma 是一个灵活轻量、灵感源自 PaLI-3 的视觉语言模型 (VLM),基于 SigLIP 视觉模型Gemma 语言模型等开放式组件。它既接受图片和文本作为输入,也生成文本作为输出,支持多种语言。这款模型专为实现行业领先的调优性能而设计,可轻松处理各种视觉语言任务,例如为图片添加说明和为短视频配字幕、视觉问答、文本阅读、对象检测和对象分割。

模型架构

PaliGemma 由 Transformer 解码器Vision Transformer 图片编码器组成,总共有 30 亿个参数。文本解码器从 Gemma-2B 初始化。图片编码器从 SigLIP-So400m/14 进行初始化。PaliGemma 是按照 PaLI-3 方案进行训练的。

输入和输出

  • 输入:图片和文本字符串,例如用于为图片添加说明的提示或问题。
  • 输出:针对输入生成的文本,例如图片的标题、问题的答案、对象边界框坐标列表或分割代码词。

引用

@article{
    title={PaliGemma: A versatile 3B VLM for transfer},
    author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2407.07726}
}

模型数据

预训练数据集

PaliGemma 基于以下混合数据集进行预训练:

数据责任过滤

我们对 WebLI 应用了以下过滤器,目的是使用干净的数据训练 PaliGemma:

  • 色情图片过滤:此过滤器会移除被视为色情图片的内容。
  • 文本安全过滤:我们会识别并滤除与不安全文本搭配使用的图片。不安全文字是指任何被视为包含或涉及儿童色情虐待图像 (CSAI)、色情内容、粗俗内容或其他冒犯性内容的文字。
  • 文本毒性过滤:我们还会使用 Perspective API 来识别和滤除与被视为侮辱性、淫秽性、仇恨性或其他毒性文本搭配使用的图片。
  • 文本个人信息过滤:我们使用 Cloud Data Loss Prevention (DLP) API 过滤了特定个人信息和其他敏感数据,以保护个人隐私。移除了社会保障号和其他敏感信息类型等标识符。
  • 其他方法:根据我们的政策和做法,根据内容质量和安全性进行过滤。

实现信息

硬件

PaliGemma 使用最新一代张量处理单元 (TPU) 硬件 (TPUv5e) 进行训练。

软件

训练是使用 JAXFlaxTFDSbig_vision 完成的。

借助 JAX,研究人员可以利用最新一代硬件(包括 TPU)更快、更高效地训练大型模型。

TFDS 用于访问数据集,Flax 用于模型架构。PaliGemma 微调代码和推理代码已发布在 big_vision GitHub 代码库中。

评估信息

基准测试结果

为了验证 PaliGemma 是否可用于各种学术任务,我们针对每项任务对预训练模型进行了微调。此外,我们还使用混合转移任务训练混合模型。我们会报告不同分辨率的结果,以便您了解哪些任务会因分辨率提高而受益。重要的是,这些任务或数据集均不属于预训练数据混合,并且其图片会从 Web 级预训练数据中明确移除。

单任务(针对单个任务进行微调)

基准(训练分块) 指标(分屏) pt-224 pt-448 pt-896
字幕
COCO 字幕(训练集+验证集) CIDEr (val) 141.92 144.60
NoCaps(COCO 字幕转移评估) CIDEr (val) 121.72 123.58
COCO-35L(模块序列) CIDEr 开发版(英语/平均-34/平均)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600(COCO-35L 转移的评估) CIDEr 开发版(英语/平均-34/平均)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps(模块序列) CIDEr (val) 127.48 153.94
SciCap(第一句话,无子图)(训练集+验证集) CIDEr/BLEU-4(测试)
162.25
0.192
181.49
0.211
Screen2words(训练集+开发集) CIDEr(测试) 117.57 119.59
微件字幕(训练集+开发集) CIDEr(测试) 136.07 148.36
问答
VQAv2(训练集和验证集) 准确率(测试服务器 - 标准) 83.19 85.64
MMVP(VQAv2 转移评估) 成对准确率 47.33 45.33
POPE(VQAv2 转移评估) 准确率(随机性/流行度/对抗性)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA(模块序列) 准确度 (val) 63.54 63.15
A-OKVQA (MC)(训练集+验证集) 准确率(测试服务器) 76.37 76.90
A-OKVQA (DA) (train+val) 准确率(测试服务器) 61.85 63.22
GQA(train_balanced+val_balanced) 准确率(testdev 平衡) 65.61 67.03
xGQA(对 GQA 转移的评估) 平均准确率(bn、de、en、id、ko、pt、ru、zh) 58.37 59.07
NLVR2(训练集+开发集) 准确率(测试) 90.02 88.93
MaRVL(NLVR2 转移评估) 平均准确率(测试)(id、sw、ta、tr、zh) 80.57 76.78
AI2D(模块序列) 准确率(测试) 72.12 73.28
ScienceQA(图像子集、无 CoT)(训练集+验证集) 准确率(测试) 95.39 95.93
RSVQA-LR(非数字)(训练集+验证集) 平均准确率(测试) 92.65 93.11
RSVQA-HR(非数字)(训练集+验证集) 平均准确率(测试/测试 2)
92.61
90.58
92.79
90.54
ChartQA(人类+增强)x(训练集+验证集) 放宽准确率的平均值(test_human、test_aug) 57.08 71.36
VizWiz VQA(训练集和验证集) 准确率(测试服务器 - 标准) 73.7 75.52
TallyQA(模块序列) 准确率(test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA(训练集和验证集) 准确率(测试) 72.32 74.61 74.93
TextVQA(训练集和验证集) 准确率(测试服务器 - 标准) 55.47 73.15 76.48
DocVQA(训练集和验证集) ANLS(测试服务器) 43.74 78.02 84.77
信息图 VQA(训练集和验证集) ANLS(测试服务器) 28.46 40.47 47.75
SceneText VQA(训练集和验证集) ANLS(测试服务器) 63.29 81.82 84.40
细分
RefCOCO(合并了 refcoco、refcoco+、refcocog,但不包括验证集和测试图像) MIoU(验证)refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
视频任务(字幕/问答)
MSR-VTT(字幕) CIDEr(测试) 70.54
MSR-VTT (QA) 准确率(测试) 50.09
ActivityNet(字幕生成) CIDEr(测试) 34.62
ActivityNet (QA) 准确率(测试) 50.78
VATEX(字幕) CIDEr(测试) 79.73
MSVD (QA) 准确率(测试) 60.22

混合模型(针对混合转移任务进行微调)

基准 指标(分屏) mix-224 mix-448
MMVP 成对准确率 46.00 45.33
POPE 准确率(随机性/流行度/对抗性)
88.00
86.63
85.67
89.37
88.40
87.47

道德和安全

评估方法

我们的评估方法包括结构化评估,以及对相关内容政策的内部红队测试。红队攻击由多个不同的团队执行,每个团队都有不同的目标和人为评估指标。我们根据与伦理和安全相关的多个不同类别对这些模型进行了评估,包括:

  • 针对涵盖儿童安全、内容安全和表征性伤害的提示进行人工评估。如需详细了解评估方法,请参阅 Gemma 模型卡片,其中包含图片描述和视觉问题解答设置。
  • 图片到文本基准评估:与相关学术数据集(例如 FairFace 数据集)进行基准测试(Karkkainen 等人,2021 年)。

评估结果

  • 在儿童安全、内容安全和表征性伤害等类别中,伦理和安全评估的人工评估结果在可接受的阈值范围内,符合内部政策
  • 除了进行严格的内部评估外,我们还使用 Perspective API(阈值为 0.8)来衡量针对 FairFace 数据集中图片生成的字幕中的毒性、粗俗内容和其他潜在问题。我们会针对每个感知到的性别、族裔和年龄属性,报告各子群体中观察到的最大值和中位数值。
指标 感知到的性别 种族 年龄段
最大值 中位数 最大值 中位数 最大值 中位数
恶意 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
身份攻击 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
侮辱内容 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
威胁 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
脏话 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

使用和限制

预期用途

开放式视觉语言模型 (VLM) 在各个行业和领域有着广泛的应用。以下可能用途并非详尽无遗。此列表旨在提供有关模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。Gemma 使用限制政策中列出了 Gemma 模型的禁止用途。

在特定视觉语言任务中进行微调:

  • 预训练模型可用于微调各种视觉语言任务,例如为图片添加说明、为短视频配字幕、视觉问答、文本阅读、对象检测和对象分割。
  • 预训练模型可以针对特定领域进行微调,例如遥感问答、盲人提出的视觉问题、科学问答、描述界面元素功能。
  • 预训练的模型可以针对具有非文本输出(例如边界框或分割掩码)的任务进行微调。

视觉-语言研究:

  • 预训练模型和微调模型可以为研究人员开展 VLM 技术实验、开发算法并为该领域的发展做出贡献奠定基础。

道德注意事项和风险

视觉-语言模型 (VLM) 的开发引发了一些伦理问题。在创建开放式模型时,我们仔细考虑了以下事项:

  • 偏见和公平性
    • 使用大规模真实图像-文本数据训练的 VLM 可能会反映训练材料中嵌入的社会文化偏见。这些模型经过了仔细审核,并采用了此卡片中所述的输入数据预处理流程和后续评估。
  • 虚假信息和滥用
    • VLM 可能会被滥用来生成虚假、误导性或有害的文本。
    • 我们提供了有关负责任地使用该模型的指南,请参阅 Responsible Generative AI 工具包
  • 公开透明,责任明确
    • 此模型卡片总结了模型的架构、功能、限制和评估流程的详细信息。
    • 以负责任的方式开发的开放模型可让 AI 生态系统中的开发者和研究人员使用 VLM 技术,从而分享创新成果。

发现的风险和缓解措施:

  • 偏见的延续:建议在模型训练、微调和其他用例期间持续监控(使用评估指标、人工审核)并探索去偏见技术。
  • 生成有害内容:内容安全机制和准则至关重要。我们建议开发者谨慎行事,并根据其特定的产品政策和应用使用情形实施适当的内容安全保护措施。
  • 出于恶意目的的滥用:技术限制以及对开发者和最终用户的培训有助于减少 LLM 的恶意应用。我们提供了教育资源和举报机制,供用户举报滥用行为:请参阅 Responsible Generative AI ToolkitGemma 使用限制政策中列出了 Gemma 模型的禁止用途。
  • 隐私权违规:模型是根据经过滤除特定个人信息和敏感数据的数据训练的。我们鼓励开发者采用可保护隐私的技术来遵守隐私权法规。

限制

  • 从底层 Gemma 模型继承的大多数限制仍然适用:
    • VLM 更擅长处理可通过清晰的提示和说明来界定的任务。开放式或高度复杂的任务可能很难完成。
    • 自然语言本身就很复杂。VLM 可能难以理解细微的细微差别、讽刺或比喻性语言。
    • VLM 会根据从训练数据集中学到的信息生成回答,但它们不是知识库。它们可能会生成不正确或过时的实情陈述。
    • VLM 依赖于语言和图片中的统计模式。在某些情况下,它们可能无法运用常识推理。
  • PaliGemma 的首要设计目的是作为通用预训练模型,以便针对专门任务进行微调。因此,其“开箱即用”或“零次学习”性能可能不如专为通用用途而设计的模型。
  • PaliGemma 不是多轮对话聊天机器人。它适用于单轮图片和文本输入。