PaliGemma

Gemma 4 est disponible avec des entrées de texte, audio et image, et une fenêtre de contexte longue allant jusqu'à 256 000 jetons. En savoir plus

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 et PaliGemma sont des modèles de vision-langage (VLM) légers et ouverts inspirés de PaLI-3, et basés sur des composants ouverts tels que le modèle de vision SigLIP et le modèle de langage Gemma. PaliGemma utilise à la fois des images et du texte comme entrées et peut répondre aux questions sur les images avec des détails et un contexte. Cela signifie que PaliGemma peut effectuer une analyse plus approfondie des images et fournir des insights utiles, tels que la création de légendes pour les images et les courtes vidéos, la détection d'objets et la lecture du texte intégré aux images.

PaliGemma 2 est disponible en tailles de paramètres de 3 milliards, 10 milliards et 28 milliards, qui sont basées sur les modèles Gemma 2 2 milliards, 9 milliards et 27 milliards, respectivement. Les modèles PaliGemma d'origine sont disponibles en taille 3B. Pour en savoir plus sur les variantes de modèles Gemma, consultez la liste des modèles Gemma. Les variantes du modèle PaliGemma acceptent différentes résolutions de pixels pour les entrées d'images, y compris 224 x 224, 448 x 448 et 896 x 896 pixels.

Vous pouvez afficher et télécharger des modèles PaliGemma sur les sites suivants:

Téléchargez-le sur Kaggle.
Téléchargez-le sur Hugging Face.

Il existe trois catégories de modèles PaliGemma:

PaliGemma PT : modèles pré-entraînés à usage général qui peuvent être affinés pour diverses tâches.
PaliGemma FT : modèles axés sur la recherche qui sont affinés sur des ensembles de données de recherche spécifiques.
Mélange PaliGemma : modèles optimisés pour un mélange de tâches pouvant être utilisés prêts à l'emploi pour les cas d'utilisation courants.

Les principaux avantages sont les suivants :

Fonctionnalité multimodale

Gère simultanément les entrées d'images et de texte.
Modèle de base polyvalent

Peut être affiné pour un large éventail de tâches liées au langage visuel.
Exploration prête à l'emploi

Il est fourni avec un point de contrôle affiné sur un ensemble de tâches pour une utilisation immédiate dans la recherche.

PaliGemma

Fonctionnalité multimodale

Modèle de base polyvalent

Exploration prête à l'emploi

En savoir plus

Exécuter dans Colab

Régler dans Colab

Afficher sur Kaggle