PaliGemma

PaliGemma は、PaLI-3 に着想を得た軽量のオープン ビジョン言語モデル(VLM)で、SigLIP ビジョンモデルGemma 言語モデルなどのオープン コンポーネントをベースとしています。PaliGemma は画像とテキストの両方を入力として受け取り、画像に関する質問に回答できます。つまり、画像の詳細な分析を行い、画像や短い動画の字幕、オブジェクト検出、画像に埋め込まれたテキストの読み取りなど、有用な分析情報を提供できます。

PaliGemma モデルには、汎用セットと研究指向セットの 2 セットがあります。

  • PaliGemma - さまざまなタスクでファインチューニングできる汎用の事前トレーニング済みモデル。
  • PaliGemma-FT - 特定の研究データセットでファインチューニングされた研究指向のモデル。

主なメリットは次のとおりです。

  • 画像とテキストの両方を同時に認識します。
  • 幅広い視覚言語タスクでファインチューニングできます。
  • すぐに調査できるように、タスクの組み合わせを微調整するチェックポイントが備わっています。

詳細

PaliGemma のモデルカードには、モデルに関する詳細情報、実装情報、評価情報、モデルの使用状況と制限事項などが含まれています。
Kaggle で PaliGemma に関する他のコード、Colab ノートブック、情報、ディスカッションをご覧ください。
Colab で JAX を使用して PaliGemma を微調整するための実例を実行します。