PaliGemma

PaliGemma est un modèle de langage de vision (VLM) léger et inspiré des PaLI-3, et repose sur des composants ouverts tels que le SigLIP de vision et le langage gemma . PaliGemma prend à la fois des images et du texte pour répondre à des questions plus de détails et de contexte, ce qui permet à PaliGemma d'analyser plus en détail des images et fournissent des informations utiles, comme le sous-titrage d'images et de courtes vidéos, la détection d'objets et la lecture de texte intégré dans des images.

Il existe deux ensembles de modèles PaliGemma : un ensemble à usage général et un ensemble axé sur la recherche :

  • PaliGemma : Modèles pré-entraînés à usage général pouvant être affinés sur diverses tâches.
  • PaliGemma-FT : Modèles axés sur la recherche affinés sur des ensembles de données de recherche spécifiques.

<ph type="x-smartling-placeholder">

Les principaux avantages sont les suivants :

  • Comprend simultanément les images et le texte.
  • Peut être affiné pour un large éventail de tâches liées au langage visuel.
  • Il est doté d'un point de contrôle affiné sur un ensemble de tâches pour une utilisation immédiate dans le cadre de la recherche.

En savoir plus

La fiche de modèle de PaliGemma contient des informations détaillées sur le modèle, des informations sur son implémentation, des informations sur l'évaluation, son utilisation et ses limites, etc.
Consultez plus de code, de notebooks Colab, d'informations et de discussions sur PaliGemma sur Kaggle.
Exécutez un exemple pratique d'ajustement de PaliGemma avec JAX dans Colab.