PaliGemma

PaliGemma 是一种轻量级的开放视觉语言模型 (VLM),其灵感来自 PaLI-3,并基于 SigLIP 视觉模型Gemma 语言模型等开放组件。PaliGemma 将图片和文本作为输入,可以回答有关图片的问题并提供详细信息和上下文,这意味着 PaliGemma 可以对图片进行更深入的分析,并提供有用的数据洞见,例如为图片和短视频添加说明、对象检测以及读取图片中嵌入的文字。

PaliGemma 模型分为两组:通用模型集和研究导向模型集:

  • PaliGemma - 可针对各种任务进行微调的通用预训练模型。
  • PaliGemma-FT - 面向研究的模型,可根据特定研究数据集进行微调。

主要优势包括:

  • 支持同时理解图片和文字。
  • 可以针对各种视觉语言任务进行微调。
  • 附带针对多种任务微调的检查点,可立即用于研究。

了解详情

PaliGemma 的模型卡片包含有关模型的详细信息、实现信息、评估信息、模型使用情况和限制等。
在 Kaggle 上查看有关 PaliGemma 的更多代码、Colab 笔记本、信息和讨论。
运行一个可正常工作的示例,在 Colab 中使用 JAX 对 PaliGemma 进行微调。