PaliGemma

Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 和 PaliGemma 是轻量级开放式视觉语言模型 (VLM)，灵感源自 PaLI-3，并基于 SigLIP 视觉模型和 Gemma 语言模型等开放式组件。PaliGemma 同时接受图片和文本作为输入，并且可以回答有关图片的详细问题和背景信息，这意味着 PaliGemma 可以对图片进行更深入的分析，并提供有用的洞见，例如为图片和短视频添加字幕、检测对象以及读取图片中嵌入的文本。

PaliGemma 2 提供 30 亿、100 亿和 280 亿个参数的大小，分别基于 Gemma 2 20 亿、90 亿和 270 亿个参数的模型。原始 PaliGemma 模型的大小为 3B。如需详细了解 Gemma 模型变体，请参阅 Gemma 模型列表。 PaliGemma 模型变体支持图像输入的不同像素分辨率，包括 224 x 224、448 x 448 和 896 x 896 像素。

您可以访问以下网站查看和下载 PaliGemma 模型：

从 Kaggle 下载。
从 Hugging Face 下载。

PaliGemma 模型分为三类：

PaliGemma PT - 通用预训练模型，可针对各种任务进行微调。
PaliGemma FT - 以研究为导向的模型，基于特定研究数据集进行了微调。
PaliGemma 混合模型 - 针对混合任务进行了调优的模型，可直接用于常见用例。

主要优势包括：

多模态功能

同时处理图片和文本输入。
多功能基本模型

可以针对各种视觉语言任务进行微调。
现成的探索

附带针对多种任务进行过微调的检查点，可立即用于研究目的。

PaliGemma

多模态功能

多功能基本模型

现成的探索

了解详情

在 Colab 中运行

在 Colab 中进行微调

在 Kaggle 上查看