PaliGemma
PaliGemma は、PaLI-3 に着想を得た軽量のオープン ビジョン言語モデル(VLM)で、SigLIP ビジョンモデルや Gemma 言語モデルなどのオープン コンポーネントをベースとしています。PaliGemma は画像とテキストの両方を入力として受け取り、画像に関する質問に回答できます。つまり、画像の詳細な分析を行い、画像や短い動画の字幕、オブジェクト検出、画像に埋め込まれたテキストの読み取りなど、有用な分析情報を提供できます。
PaliGemma モデルには、汎用セットと研究指向セットの 2 セットがあります。
- PaliGemma - さまざまなタスクでファインチューニングできる汎用の事前トレーニング済みモデル。
- PaliGemma-FT - 特定の研究データセットでファインチューニングされた研究指向のモデル。
主なメリットは次のとおりです。
-
マルチモーダルな理解
画像とテキストの両方を同時に認識します。 -
汎用性の高いベースモデル
幅広い視覚言語タスクでファインチューニングできます。 -
既製のデータ探索
すぐに調査できるように、タスクの組み合わせを微調整するチェックポイントが備わっています。
詳細
モデルカードを表示する
PaliGemma のモデルカードには、モデルに関する詳細情報、実装情報、評価情報、モデルの使用状況と制限事項などが含まれています。
Kaggle で表示
Kaggle で PaliGemma に関する他のコード、Colab ノートブック、情報、ディスカッションをご覧ください。
Colab で実行
Colab で JAX を使用して PaliGemma を微調整するための実例を実行します。