PaliGemma

PaliGemma 是一款輕量的開放式視覺語言模型 (VLM),靈感來自於 PaLI-3、 而且以 SigLIP 等開放元件為基礎 視覺模型Gemma 語言 模型。PaliGemma 會將圖片和文字做為輸入內容,並回答 這代表 PaliGemma 可以執行更深入的分析 圖像和實用見解, 像是為圖像和短片加上說明文字 物件偵測,以及讀取內嵌在圖片中的文字。

PaliGemma 模型有兩種,分別是一般用途集和研究導向集:

  • PaliGemma - 一般用途預先訓練模型,可對各種任務微調。
  • PaliGemma-FT: 研究導向模型,使用特定研究資料集微調。

這麼做的主要優點包括:

  • 同時理解圖片和文字。
  • 並用來微調各式各樣的視覺語言工作。
  • 設有查核點,針對多種工作進行微調,以便立即用於研究。

瞭解詳情

PaliGemma 的模型資訊卡內含模型、實作資訊、評估資訊、模型用法和限制等詳細資訊。
在 Kaggle 上查看更多有關 PaliGemma 的程式碼、Colab 筆記本、資訊和討論。
執行範例,使用 Colab 中的 JAX 微調 PaliGemma。