PaliGemma

PaliGemma 是輕量級的開放式視覺語言模型 (VLM),靈感來自 PaLI-3,並採用 SigLIP 視覺模型Gemma 語言模型等開放元件。PaliGemma 接受圖片和文字做為輸入內容,且能回答與圖片有關的問題,並提供細節和背景資訊。也就是說,PaliGemma 可以進一步分析圖片,並提供實用的深入分析資訊,例如為圖片與短片新增說明文字、偵測物件,以及閱讀圖片內嵌的文字。

PaliGemma 模型分為兩種,分別是一般用途集和研究導向集:

  • PaliGemma:一般用途的預先訓練模型,可針對各種任務進行微調。
  • PaliGemma-FT:藉由特定研究資料集微調的研究導向模型。

主要優點包括:

  • 同時理解圖片和文字。
  • 並用來微調各式各樣的視覺語言工作。
  • 設有查核點,針對多種工作進行微調,以便立即用於研究。

瞭解詳情

PaliGemma 的模型資訊卡內含模型、實作資訊、評估資訊、模型用法和限制等詳細資訊。
在 Kaggle 上查看更多有關 PaliGemma 的程式碼、Colab 筆記本、資訊和討論。
執行範例,使用 Colab 中的 JAX 微調 PaliGemma。