视觉理解

Gemma 4 是 Gemma 系列的最新模型,能够执行各种视觉语言任务,例如对象检测、光学字符识别 (OCR)、视觉问答、图片标注以及跨多张图片的推理。它还支持可变分辨率处理,让您能够平衡推理速度和输出准确性。

本部分将探讨如何在提示中有效地准备和使用视觉数据。

可视化数据

视觉数据可以采用多种格式和分辨率。支持的具体文件格式(例如 JPEG 和 PNG)取决于您选择将视觉数据转换为张量的框架。

以下是为 Gemma 准备视觉数据时的关键注意事项:

  • token 费用:每张图片通常使用 256 个 token,不过 PaliGemma 图片 token 费用因所选的具体模型而异。
  • 解决方法:解释后的分辨率(即编码为 token 并由模型处理的像素数)取决于您使用的 Gemma 版本:
    • Gemma 4:分辨率可变,具体取决于 token 预算。您可以选择 70、140、280、560 或 1120 个 token 的预算规模,这决定了输入图片的缩放和处理程度。
    • Gemma 3:(4B 及更高)896x896 分辨率,可平移和扫描较大图片。
    • Gemma 3n:256x256、512x512 或 768x768 分辨率
    • PaliGemma 2:224x224、448x448 或 896x896 分辨率

低分辨率图片的处理速度更快,但捕捉到的视觉细节较少。为了优化推理速度,您应尽量提供与所选 Gemma 模型的内置解释分辨率相匹配的视觉数据。

可变分辨率和 token 预算

Gemma 4 模型引入了处理不同分辨率图片的功能,让您可以根据具体任务调整视觉输入。例如,您可能会选择高分辨率来精确定位对象检测中的细微细节,而较低的分辨率可能更适合分析单个视频帧以加快处理速度。最终,此功能可让您在推理速度和视觉呈现的准确性之间取得平衡。

您可以使用令牌预算来管理这种权衡。此预算会为模型可针对单张图片生成的视觉 token(也称为视觉 token 嵌入)数量设置硬性限制。

您可以选择 70、140、280、560 或 1120 个代币的预算:

  • 高预算(例如 1,120 个 token):保留较高的图片分辨率。 这样可以生成更多供模型处理的图像块,非常适合捕捉精细、复杂的细节。
  • 低预算(例如 70 个令牌):缩小图片尺寸,从而减少图像块数量。这可显著缩短推理时间。

预算的运作方式:token 预算通过规定初始图片块的最大数量来直接控制图片缩放程度。系统生成的补丁数量是您所选预算的 9 倍。例如,280 个令牌的预算最多可生成 2,520 个补丁(280 × 9)。

之所以存在 9 倍的乘数,是因为补丁的压缩方式:在处理过程中,模型会获取每个 3x3 的相邻补丁网格,并将它们平均化以创建单个嵌入。这些整合后的嵌入将成为最终的视觉标记。因此,token 预算越高,最终生成的嵌入内容就越多,从而使模型能够从视觉数据中提取更丰富、更精细的信息。

正确做法

以下是在使用视觉数据提示 Gemma 时应遵循的一些最佳实践。

  • 具体说明:如果您有任何具体任务,请提供足够的背景信息和指导。不要使用“描述这张图片”,可以试试“描述这张图片中的场景,重点说明人物与物体之间的关系”。

  • 提供限制条件:如需实现特定风格或语气,请务必在提示中指定。例如,您可以要求 Gemma“以黑色电影的风格撰写一篇关于此图片的短篇故事”,而不是提出一般性的故事撰写请求。

  • 迭代优化:要获得预期的输出,通常需要进行实验并优化提示。从基本提示开始,逐步增加复杂性。

禁忌行为

以下是使用视觉数据提示 Gemma 时应避免的一些事项。

  • 期望获得极密集对象的精确数量:虽然 Gemma 4 在对象检测和 OCR 方面表现出色,但对于极密集或极小的对象(例如数草叶),它可能仍会提供近似值,而不是精确数量。如需在视觉任务中获得最佳准确率,请使用更高的 token 预算。

  • 模糊不清的提示:请提供具体说明,以获得预期的输出结果,而不是使用“根据此图片生成一些内容”等一般提示。明确定义“某事物”是什么。例如,诗歌、食谱或代码段。