PaliGemma
PaliGemma 是一种轻量级的开放视觉语言模型 (VLM),其灵感来自 PaLI-3,并基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件。PaliGemma 将图片和文本作为输入,可以回答有关图片的问题并提供详细信息和上下文,这意味着 PaliGemma 可以对图片进行更深入的分析,并提供有用的数据洞见,例如为图片和短视频添加说明、对象检测以及读取图片中嵌入的文字。
PaliGemma 模型分为两组:通用模型集和研究导向模型集:
- PaliGemma - 可针对各种任务进行微调的通用预训练模型。
- PaliGemma-FT - 面向研究的模型,可根据特定研究数据集进行微调。
主要优势包括:
-
多模态理解
支持同时理解图片和文字。 -
多功能基本模型
可以针对各种视觉语言任务进行微调。 -
现成的探索
附带针对多种任务微调的检查点,可立即用于研究。
了解详情
查看模型卡片
PaliGemma 的模型卡片包含有关模型的详细信息、实现信息、评估信息、模型使用情况和限制等。
在 Kaggle 上查看
在 Kaggle 上查看有关 PaliGemma 的更多代码、Colab 笔记本、信息和讨论。
在 Colab 中运行
运行一个可正常工作的示例,在 Colab 中使用 JAX 对 PaliGemma 进行微调。