PaliGemma

PaliGemma 是一种轻量级的开放式视觉语言模型 (VLM),其灵感来自于 PaLI-3、 基于 SigLIP 等开放组件, 视觉模型Gemma 语言 模型。PaliGemma 将图片和文本都作为输入,并且可以回答 提供细节和背景信息,这意味着 PaliGemma 可以对 并提供实用的数据洞见,例如为图片和短视频添加说明, 对象检测和读取嵌入在图片中的文本。

PaliGemma 模型分为两组:通用模型集和研究型模型集:

  • PaliGemma - 针对各种任务微调的通用预训练模型。
  • PaliGemma-FT - 针对特定研究数据集微调的研究型模型。

<ph type="x-smartling-placeholder">

主要优势包括:

  • 支持同时理解图片和文字。
  • 可以针对各种视觉语言任务进行微调。
  • 附带针对多种任务微调的检查点,可立即用于研究。

了解详情

PaliGemma 的模型卡片包含有关模型的详细信息、实现信息、评估信息、模型使用情况和限制等。
在 Kaggle 上查看有关 PaliGemma 的更多代码、Colab 笔记本、信息和讨论。
运行一个可正常工作的示例,在 Colab 中使用 JAX 对 PaliGemma 进行微调。