PaliGemma

PaliGemma は軽量のオープン ビジョン言語モデル(VLM)で、 PaLI-3、 また、SigLIP ビジョンモデルGemma 言語 モデルです。PaliGemma は画像とテキストの両方を入力として受け取り、 より深い分析を行うことができます。つまり、PaliGemma はより深い分析を 画像とショート動画のキャプションなどの有用な分析情報を オブジェクト検出、画像に埋め込まれたテキストの読み取りなどに使用されます。

PaliGemma モデルには、汎用セットと研究指向の 2 セットがあります。

  • PaliGemma - さまざまなタスクでファインチューニングできる汎用の事前トレーニング済みモデル。
  • PaliGemma-FT - 特定の研究データセットでファインチューニングされた研究指向のモデル。

主なメリットは次のとおりです。

  • 画像とテキストの両方を同時に認識します。
  • 幅広い視覚言語タスクでファインチューニングできます。
  • すぐに調査できるように、タスクの組み合わせを微調整するチェックポイントが備わっています。

詳細

PaliGemma のモデルカードには、モデルに関する詳細情報、実装情報、評価情報、モデルの使用状況と制限事項などが含まれています。
Kaggle で PaliGemma に関する他のコード、Colab ノートブック、情報、ディスカッションをご覧ください。
Colab で JAX を使用して PaliGemma を微調整するための実例を実行します。