PaliGemma
PaliGemma は軽量のオープン ビジョン言語モデル(VLM)で、 PaLI-3、 また、SigLIP ビジョンモデルと Gemma 言語 モデルです。PaliGemma は画像とテキストの両方を入力として受け取り、 より深い分析を行うことができます。つまり、PaliGemma はより深い分析を 画像とショート動画のキャプションなどの有用な分析情報を オブジェクト検出、画像に埋め込まれたテキストの読み取りなどに使用されます。
PaliGemma モデルには、汎用セットと研究指向の 2 セットがあります。
- PaliGemma - さまざまなタスクでファインチューニングできる汎用の事前トレーニング済みモデル。
- PaliGemma-FT - 特定の研究データセットでファインチューニングされた研究指向のモデル。
主なメリットは次のとおりです。
-
マルチモーダルな理解
画像とテキストの両方を同時に認識します。 -
汎用性の高いベースモデル
幅広い視覚言語タスクでファインチューニングできます。 -
既製のデータ探索
すぐに調査できるように、タスクの組み合わせを微調整するチェックポイントが備わっています。
詳細
モデルカードを表示する
PaliGemma のモデルカードには、モデルに関する詳細情報、実装情報、評価情報、モデルの使用状況と制限事項などが含まれています。
Kaggle で表示
Kaggle で PaliGemma に関する他のコード、Colab ノートブック、情報、ディスカッションをご覧ください。
Colab で実行
Colab で JAX を使用して PaliGemma を微調整するための実例を実行します。