PaliGemma
PaliGemma 是一种轻量级的开放式视觉语言模型 (VLM),其灵感来自于 PaLI-3、 基于 SigLIP 等开放组件, 视觉模型和 Gemma 语言 模型。PaliGemma 将图片和文本都作为输入,并且可以回答 提供细节和背景信息,这意味着 PaliGemma 可以对 并提供实用的数据洞见,例如为图片和短视频添加说明, 对象检测和读取嵌入在图片中的文本。
PaliGemma 模型分为两组:通用模型集和研究型模型集:
- PaliGemma - 针对各种任务微调的通用预训练模型。
- PaliGemma-FT - 针对特定研究数据集微调的研究型模型。
主要优势包括:
-
多模态理解
支持同时理解图片和文字。 -
多功能基本模型
可以针对各种视觉语言任务进行微调。 -
现成的探索
附带针对多种任务微调的检查点,可立即用于研究。
了解详情
查看模型卡片
PaliGemma 的模型卡片包含有关模型的详细信息、实现信息、评估信息、模型使用情况和限制等。
在 Kaggle 上查看
在 Kaggle 上查看有关 PaliGemma 的更多代码、Colab 笔记本、信息和讨论。
在 Colab 中运行
运行一个可正常工作的示例,在 Colab 中使用 JAX 对 PaliGemma 进行微调。