PaliGemma
PaliGemma est un modèle de langage de vision (VLM) léger et inspiré des PaLI-3, et repose sur des composants ouverts tels que le SigLIP de vision et le langage gemma . PaliGemma prend à la fois des images et du texte pour répondre à des questions plus de détails et de contexte, ce qui permet à PaliGemma d'analyser plus en détail des images et fournissent des informations utiles, comme le sous-titrage d'images et de courtes vidéos, la détection d'objets et la lecture de texte intégré dans des images.
Il existe deux ensembles de modèles PaliGemma : un ensemble à usage général et un ensemble axé sur la recherche :
- PaliGemma : Modèles pré-entraînés à usage général pouvant être affinés sur diverses tâches.
- PaliGemma-FT : Modèles axés sur la recherche affinés sur des ensembles de données de recherche spécifiques.
Les principaux avantages sont les suivants :
-
Compréhension multimodale
Comprend simultanément les images et le texte. -
Modèle de base polyvalent
Peut être affiné pour un large éventail de tâches liées au langage visuel. -
Exploration prête à l'emploi
Il est doté d'un point de contrôle affiné sur un ensemble de tâches pour une utilisation immédiate dans le cadre de la recherche.