PaliGemma

PaliGemma est un modèle de langage visionnel (VLM, Open Vision-Language Model) léger, inspiré de PaLI-3 et basé sur des composants ouverts tels que le modèle de vision SigLIP et le modèle de langage Gemma. PaliGemma prend à la fois des images et du texte en tant qu'entrées, et peut répondre aux questions sur les images avec des détails et du contexte. Il peut ainsi analyser les images plus en profondeur et fournir des informations utiles, telles que le sous-titrage d'images et de vidéos courtes, la détection d'objets et la lecture de texte intégré dans des images.

Il existe deux ensembles de modèles PaliGemma, un ensemble à usage général et un ensemble axé sur la recherche:

  • PaliGemma : modèles pré-entraînés à usage général qui peuvent être affinés sur diverses tâches.
  • PaliGemma-FT : modèles orientés recherche et affinés sur des ensembles de données de recherche spécifiques.

Les principaux avantages sont les suivants :

  • Comprend simultanément les images et le texte.
  • Peut être affiné pour un large éventail de tâches liées au langage visuel.
  • Il est doté d'un point de contrôle affiné sur un ensemble de tâches pour une utilisation immédiate dans le cadre de la recherche.

En savoir plus

La fiche de modèle de PaliGemma contient des informations détaillées sur le modèle, des informations sur son implémentation, des informations sur l'évaluation, son utilisation et ses limites, etc.
Consultez plus de code, de notebooks Colab, d'informations et de discussions sur PaliGemma sur Kaggle.
Exécutez un exemple pratique d'ajustement de PaliGemma avec JAX dans Colab.