Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

视觉理解

Gemma 4 是 Gemma 系列的最新模型，能够执行各种视觉语言任务，例如对象检测、光学字符识别 (OCR)、视觉问答、图片标注以及跨多张图片的推理。它还支持可变分辨率处理，让您能够平衡推理速度和输出准确性。

本部分将探讨如何在提示中有效地准备和使用视觉数据。

可视化数据

视觉数据可以采用多种格式和分辨率。支持的具体文件格式（例如 JPEG 和 PNG）取决于您选择将视觉数据转换为张量的框架。

以下是为 Gemma 准备视觉数据时的关键注意事项：

token 费用：每张图片通常使用 256 个 token，不过 PaliGemma 图片 token 费用因所选的具体模型而异。
解决方法：解释后的分辨率（即编码为 token 并由模型处理的像素数）取决于您使用的 Gemma 版本：
- Gemma 4：分辨率可变，具体取决于 token 预算。您可以选择 70、140、280、560 或 1120 个 token 的预算规模，这决定了输入图片的缩放和处理程度。
- Gemma 3：（4B 及更高）896x896 分辨率，可平移和扫描较大图片。
- Gemma 3n：256x256、512x512 或 768x768 分辨率
- PaliGemma 2：224x224、448x448 或 896x896 分辨率

低分辨率图片的处理速度更快，但捕捉到的视觉细节较少。为了优化推理速度，您应尽量提供与所选 Gemma 模型的内置解释分辨率相匹配的视觉数据。

Gemma 4 模型引入了处理不同分辨率图片的功能，让您可以根据具体任务调整视觉输入。例如，您可能会选择高分辨率来精确定位对象检测中的细微细节，而较低的分辨率可能更适合分析单个视频帧以加快处理速度。最终，此功能可让您在推理速度和视觉呈现的准确性之间取得平衡。

您可以使用令牌预算来管理这种权衡。此预算会为模型可针对单张图片生成的视觉 token（也称为视觉 token 嵌入）数量设置硬性限制。

您可以选择 70、140、280、560 或 1120 个代币的预算：

预算的运作方式：token 预算通过规定初始图片块的最大数量来直接控制图片缩放程度。系统生成的补丁数量是您所选预算的 9 倍。例如，280 个令牌的预算最多可生成 2,520 个补丁（280 × 9）。

之所以存在 9 倍的乘数，是因为补丁的压缩方式：在处理过程中，模型会获取每个 3x3 的相邻补丁网格，并将它们平均化以创建单个嵌入。这些整合后的嵌入将成为最终的视觉标记。因此，token 预算越高，最终生成的嵌入内容就越多，从而使模型能够从视觉数据中提取更丰富、更精细的信息。

以下是在使用视觉数据提示 Gemma 时应遵循的一些最佳实践。

具体说明：如果您有任何具体任务，请提供足够的背景信息和指导。不要使用“描述这张图片”，可以试试“描述这张图片中的场景，重点说明人物与物体之间的关系”。
提供限制条件：如需实现特定风格或语气，请务必在提示中指定。例如，您可以要求 Gemma“以黑色电影的风格撰写一篇关于此图片的短篇故事”，而不是提出一般性的故事撰写请求。
迭代优化：要获得预期的输出，通常需要进行实验并优化提示。从基本提示开始，逐步增加复杂性。

以下是使用视觉数据提示 Gemma 时应避免的一些事项。

期望获得极密集对象的精确数量：虽然 Gemma 4 在对象检测和 OCR 方面表现出色，但对于极密集或极小的对象（例如数草叶），它可能仍会提供近似值，而不是精确数量。如需在视觉任务中获得最佳准确率，请使用更高的 token 预算。
模糊不清的提示：请提供具体说明，以获得预期的输出结果，而不是使用“根据此图片生成一些内容”等一般提示。明确定义“某事物”是什么。例如，诗歌、食谱或代码段。