PaliGemma
PaliGemma est un modèle de langage visionnel (VLM, Open Vision-Language Model) léger, inspiré de PaLI-3 et basé sur des composants ouverts tels que le modèle de vision SigLIP et le modèle de langage Gemma. PaliGemma prend à la fois des images et du texte en tant qu'entrées, et peut répondre aux questions sur les images avec des détails et du contexte. Il peut ainsi analyser les images plus en profondeur et fournir des informations utiles, telles que le sous-titrage d'images et de vidéos courtes, la détection d'objets et la lecture de texte intégré dans des images.
Il existe deux ensembles de modèles PaliGemma, un ensemble à usage général et un ensemble axé sur la recherche:
- PaliGemma : modèles pré-entraînés à usage général qui peuvent être affinés sur diverses tâches.
- PaliGemma-FT : modèles orientés recherche et affinés sur des ensembles de données de recherche spécifiques.
Les principaux avantages sont les suivants :
-
Compréhension multimodale
Comprend simultanément les images et le texte. -
Modèle de base polyvalent
Peut être affiné pour un large éventail de tâches liées au langage visuel. -
Exploration prête à l'emploi
Il est doté d'un point de contrôle affiné sur un ensemble de tâches pour une utilisation immédiate dans le cadre de la recherche.