PaliGemma

Gemma 4 推出，支援文字、音訊和圖片輸入，脈絡窗口最長可達 25.6 萬個詞元！瞭解詳情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 和 PaliGemma 是輕量級開放式視覺語言模型 (VLM)，靈感來自 PaLI-3，並以 SigLIP 視覺模型和 Gemma 語言模型等開放式元件為基礎。PaliGemma 會同時將圖片和文字做為輸入內容，並能回答有關圖片的詳細資料和背景資訊問題，也就是說，PaliGemma 可對圖片進行更深入的分析，並提供實用的洞察資料，例如為圖片和短片加上字幕、偵測物件，以及讀取圖片中內嵌的文字。

PaliGemma 2 的參數大小有 3B、10B 和 28B，分別對應 Gemma 2 的 2B、9B 和 27B 模型。原始 PaliGemma 型號提供 3B 尺寸。如要進一步瞭解 Gemma 模型變化版本，請參閱 Gemma 模型清單。PaliGemma 模型變化版本支援圖像輸入的不同像素解析度，包括 224 x 224、448 x 448 和 896 x 896 像素。

您可以前往下列網站查看及下載 PaliGemma 模型：

從 Kaggle 下載。
從 Hugging Face 下載。

PaliGemma 模型分為三類：

PaliGemma PT：一般用途的預先訓練模型，可針對各種工作進行精密調整。
PaliGemma FT：以研究為導向的模型，可根據特定研究資料集進行微調。
PaliGemma 混合模型：針對多種任務進行調整的模型，可立即用於常見用途。

主要優點包括：

多模態功能

同時處理圖片和文字輸入內容。
功能多元的基本模型

並用來微調各式各樣的視覺語言工作。
現成探索

提供針對混合任務微調的檢查點，可立即用於研究。

PaliGemma

多模態功能

功能多元的基本模型

現成探索

瞭解詳情

在 Colab 中執行

在 Colab 中調整

前往 Kaggle 查看