Page du modèle:PaliGemma
Ressources et documentation technique:
Conditions d'utilisation:Conditions
Auteurs:Google
Informations relatives au modèle
Récapitulatif du modèle
Description
PaliGemma est un modèle de vision-langage (VLM) polyvalent et léger inspiré de PaLI-3 et basé sur des composants ouverts tels que le modèle de vision SigLIP et le modèle de langage Gemma. Il accepte à la fois l'image et le texte en entrée et génère du texte en sortie, et est compatible avec plusieurs langues. Il est conçu pour offrir des performances de réglage fin de premier ordre sur un large éventail de tâches de vision et de langage, telles que le sous-titrage d'images et de courtes vidéos, la réponse à des questions visuelles, la lecture de texte, la détection d'objets et la segmentation d'objets.
Architecture du modèle
PaliGemma est la composition d'un décodeur Transformer et d'un encodeur d'image Vision Transformer, qui comptent au total trois milliards de paramètres. L'encodeur de texte est initialisé à partir de Gemma-2B. L'encodeur d'image est initialisé à partir de SigLIP-So400m/14. PaliGemma est entraîné selon les recettes PaLI-3.
Entrées et sorties
- Entrée:image et chaîne de texte, comme une requête pour ajouter une légende à l'image ou une question.
- Sortie:texte généré en réponse à l'entrée, comme une légende de l'image, une réponse à une question, une liste de coordonnées du cadre de délimitation de l'objet ou des mots de code de segmentation.
Citation
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
Données du modèle
Entraîner des ensembles de données
PaliGemma est pré-entraîné sur le mélange d'ensembles de données suivant:
- WebLI:WebLI (Web Language Image) est un ensemble de données image-texte multilingue à l'échelle du Web, créé à partir du Web public. Un large éventail de divisions WebLI est utilisé pour acquérir des fonctionnalités de modèle polyvalentes, telles que la compréhension sémantique visuelle, la localisation d'objets, la compréhension du texte située visuellement, la multilinguisme, etc.
- CC3M-35L:paires image-texte alternatif en anglais sélectionnées à partir de pages Web (Sharma et al., 2018). Nous avons utilisé l'API Google Cloud Translation pour traduire dans 34 langues supplémentaires.
- VQ²A-CC3M-35L/VQG-CC3M-35L::sous-ensemble de VQ2A-CC3M (Changpinyo et al., 2022a), traduit dans les 34 langues supplémentaires de CC3M-35L à l'aide de l'API Google Cloud Translation.
- OpenImages:détection et questions et réponses sensibles aux objets (Piergiovanni et al., 2022) générées par des règles créées manuellement sur l'ensemble de données OpenImages.
- WIT:images et textes collectés sur Wikipedia (Srinivasan et al., 2021).
Filtrage de la responsabilité des données
Les filtres suivants sont appliqués à WebLI dans le but d'entraîner PaliGemma sur des données nettoyées:
- Filtrage des images pornographiques:ce filtre supprime les images jugées à caractère pornographique.
- Filtrage de sécurité du texte:nous identifions et filtrons les images associées à du texte non sécurisé. Un texte dangereux est tout texte considéré comme contenant des images d'abus sexuels sur mineurs, de la pornographie, des propos vulgaires ou autrement choquants.
- Filtrage de la toxicité du texte:nous utilisons également l'API Perspective pour identifier et filtrer les images associées à du texte jugé insultant, obscène, haineux ou autrement toxique.
- Filtrage des informations personnelles dans le texte:nous avons filtré certaines informations personnelles et d'autres données sensibles à l'aide de l'API Cloud Data Loss Prevention (DLP) pour protéger la confidentialité des individus. Les identifiants tels que les numéros de sécurité sociale et d'autres types d'informations sensibles ont été supprimés.
- Méthodes supplémentaires:filtrage en fonction de la qualité et de la sécurité des contenus, conformément à nos règles et pratiques.
Informations d'implémentation
Matériel
PaliGemma a été entraîné à l'aide de la dernière génération de matériel TPU (Tensor Processing Unit) (TPUv5e).
Logiciel
L'entraînement a été effectué à l'aide de JAX, Flax, TFDS et big_vision
.
JAX permet aux chercheurs de tirer parti de la dernière génération de matériel, y compris des TPU, pour un entraînement plus rapide et plus efficace de grands modèles.
TFDS permet d'accéder aux ensembles de données, tandis que Flax est utilisé pour l'architecture du modèle. Le code d'ajustement fin et le code d'inférence de PaliGemma sont publiés dans le dépôt GitHub big_vision
.
Informations sur l'évaluation
Résultats du benchmark
Afin de vérifier la transférabilité de PaliGemma à un large éventail de tâches académiques, nous affinons les modèles pré-entraînés pour chaque tâche. De plus, nous entraînons le modèle de mixage avec un mélange des tâches de transfert. Nous rapportons les résultats pour différentes résolutions afin de vous donner une idée des tâches qui bénéficient d'une résolution plus élevée. Il est important de noter qu'aucune de ces tâches ou de ces ensembles de données ne fait partie du mélange de données de pré-entraînement, et que leurs images sont explicitement supprimées des données de pré-entraînement à l'échelle du Web.
Une seule tâche (ajuster pour une seule tâche)
Benchmark (train split) | Métrique (fractionnement) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Sous-titrage | ||||
Sous-titres COCO (train+restval) | CIDEr (val) | 141.92 | 144,60 | |
NoCaps (Évaluation du transfert des sous-titres COCO) | CIDEr (val) | 121,72 | 123,58 | |
COCO-35L (train) | Évolution du CIDEr (en/avg-34/avg) |
|
|
|
XM3600 (évaluation du transfert COCO-35L) | Évolution du CIDEr (en/avg-34/avg) |
|
|
|
TextCaps (entraîner) | CIDEr (val) | 127,48 | 153,94 | |
SciCap (première phrase, pas de sous-figure) (entraînement + validation) | CIDEr/BLEU-4 (test) |
|
|
|
Screen2words (entraînement et développement) | CIDEr (test) | 117,57 | 119,59 | |
Sous-titrage des widgets (entraînement et développement) | CIDEr (test) | 136,07 | 148,36 | |
Systèmes de questions-réponses | ||||
VQAv2 (entraînement + validation) | Précision (serveur de test – std) | 83,19 | 85,64 | |
MMVP (évaluation du transfert de la VQAv2) | Précision de l'association | 47,33 | 45,33 | |
POPE (POPE) | Précision (aléatoire/populaire/adversarial) |
|
|
|
OKVQA (train) | Précision (val) | 63,54 | 63,15 | |
A-OKVQA (MC) (entraînement + validation) | Précision (serveur de test) | 76,37 | 76,90 | |
A-OKVQA (DA) (train+val) | Précision (serveur de test) | 61,85 | 63,22 | |
GQA (train_balanced+val_balanced) | Précision (équilibré testdev) | 65,61 | 67,03 | |
xGQA (évaluation du transfert de GQA) | Précision moyenne (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59,07 | |
NLVR2 (entraînement et développement) | Précision (test) | 90,02 | 88,93 | |
MaRVL (évaluation du transfert NLVR2) | Précision moyenne (test) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (train) | Précision (test) | 72,12 | 73.28 | |
ScienceQA (sous-ensemble d'images, pas de CoT) (entraînement + validation) | Précision (test) | 95,39 | 95,93 | |
RSVQA-LR (non numérique) (entraînement + validation) | Précision moyenne (test) | 92,65 | 93,11 | |
RSVQA-HR (non numérique) (entraînement + validation) | Précision moyenne (test/test2) |
|
|
|
ChartQA (humain+aug)x(entraînement+validation) | Précision moyenne simplifiée (test_human, test_aug) | 57,08 | 71,36 | |
VQA VizWiz (entraînement et validation) | Précision (serveur de test – std) | 73,7 | 75,52 | |
TallyQA (entraînement) | Précision (test_simple/test_complex) |
|
|
|
OCR-VQA (entraînement et validation) | Précision (test) | 72,32 | 74,61 | 74.93 |
TextVQA (entraînement + validation) | Précision (serveur de test – std) | 55,47 | 73,15 | 76,48 |
DocVQA (entraînement et validation) | ANLS (serveur de test) | 43,74 | 78,02 | 84,77 |
VQA infographique (entraînement et validation) | ANLS (serveur de test) | 28,46 | 40,47 | 47,75 |
VQA SceneText (entraînement et validation) | ANLS (serveur de test) | 63,29 | 81,82 | 84,40 |
Segmentation | ||||
RefCOCO (refcoco, refcoco+ et refcocog combinés, à l'exception des images de validation et de test) | MIoU (validation) refcoco/refcoco+/refcocog |
|
|
|
Tâches vidéo (sous-titrage/contrôle qualité) | ||||
MSR-VTT (sous-titrage) | CIDEr (test) | 70,54 | ||
MSR-VTT (QA) | Précision (test) | 50,09 | ||
ActivityNet (sous-titrage) | CIDEr (test) | 34,62 | ||
ActivityNet (contrôle qualité) | Précision (test) | 50,78 | ||
VATEX (sous-titrage) | CIDEr (test) | 79,73 | ||
MSVD (QA) | Précision (test) | 60.22 |
Modèle de mélange (affinage sur un mélange de tâches de transfert)
Benchmark | Métrique (fractionnement) | mix-224 | mix-448 |
---|---|---|---|
MMVP | Précision de l'association | 46,00 | 45,33 |
POPE | Précision (aléatoire/populaire/adversarial) |
|
|
Éthique et sécurité
Approche d'évaluation
Nos méthodes d'évaluation incluent des évaluations structurées et des tests internes de red teaming sur les règles de contenu pertinentes. La simulation d'attaque a été menée par plusieurs équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaines différents. Ces modèles ont été évalués en fonction d'un certain nombre de catégories différentes liées à l'éthique et à la sécurité, y compris les suivantes:
- Évaluation humaine des requêtes concernant la sécurité des enfants, la sécurité des contenus et les risques de représentation. Pour en savoir plus sur l'approche d'évaluation, consultez la fiche du modèle Gemma, mais avec des configurations de sous-titrage d'image et de système de questions-réponses visuel.
- Évaluation du benchmark de conversion d'images en texte: comparaison avec des ensembles de données universitaires pertinents tels que l'ensemble de données FairFace (Karkkainen et al., 2021).
Résultats d'évaluation
- Les résultats de l'évaluation humaine de l'éthique et de la sécurité sont conformes aux Règles internes pour des catégories telles que la sécurité des enfants, la sécurité du contenu et les dommages représentationnels.
- En plus des évaluations internes rigoureuses, nous utilisons également l'API Perspective (seuil de 0, 8) pour mesurer la toxicité, les jurons et d'autres problèmes potentiels dans les sous-titres générés pour les images issues de l'ensemble de données FairFace. Nous rapportons les valeurs maximales et médianes observées dans les sous-groupes pour chacun des attributs de genre, d'ethnicité et d'âge perçus.
Métrique | Genre perçu | Origine ethnique | Tranche d'âge | |||
---|---|---|---|---|---|---|
Maximum | Médiane | Maximum | Médiane | Maximum | Médiane | |
Toxicité | 0,04 % | 0,03 % | 0,08% | 0 % | 0,09 % | 0 % |
Attaque portant sur l'identité | 0 % | 0 % | 0 % | 0 % | 0 % | 0 % |
Insultes | 0,06 % | 0,04 % | 0,09 % | 0,07 % | 0,16 % | 0 % |
Menace | 0,06 % | 0,05 % | 0,14 % | 0,05 % | 0,17% | 0 % |
Grossièretés | 0 % | 0 % | 0 % | 0 % | 0 % | 0 % |
Utilisation et limites
Utilisation prévue
Les modèles de langage visuel (VLM) ouverts ont de nombreuses applications dans différents secteurs et domaines. La liste suivante des utilisations potentielles n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont pris en compte lors de l'entraînement et du développement du modèle. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.
Ajustez les paramètres pour une tâche de vision-langage spécifique:
- Les modèles pré-entraînés peuvent être affinés pour un large éventail de tâches de vision-langage, telles que la création de légendes pour des images et des courtes vidéos, la réponse à des questions visuelles, la lecture de texte, la détection et la segmentation d'objets.
- Les modèles pré-entraînés peuvent être affinés pour des domaines spécifiques tels que la réponse aux questions de télédétection, les questions visuelles des personnes non voyantes, la réponse aux questions scientifiques et la description des fonctionnalités des éléments d'interface utilisateur.
- Les modèles pré-entraînés peuvent être affinés pour les tâches dont les sorties ne sont pas textuelles, comme les cadres de délimitation ou les masques de segmentation.
Recherches sur le langage visuel:
- Les modèles pré-entraînés et les modèles affinés peuvent servir de base aux chercheurs pour tester les techniques de VLM, développer des algorithmes et contribuer au développement du domaine.
Considérations et risques éthiques
Le développement de modèles vision-langage (VLM) soulève plusieurs problèmes éthiques. Pour créer un modèle ouvert, nous avons pris en compte les points suivants:
- Biais et équité
- Les VLM entraînés sur des données image-texte réelles à grande échelle peuvent refléter des biais socioculturels intégrés au matériel d'entraînement. Ces modèles ont été examinés avec soin, le prétraitement des données d'entrée a été décrit et les évaluations ultérieures ont été signalées dans cette fiche.
- Informations incorrectes et utilisation abusive
- Les VLM peuvent être utilisées de manière abusive pour générer du texte faux, trompeur ou nuisible.
- Des consignes sont fournies pour une utilisation responsable du modèle. Consultez le kit IA générative responsable.
- Transparence et responsabilité
- Cette fiche de modèle résume les informations sur l'architecture, les fonctionnalités, les limites et les processus d'évaluation des modèles.
- Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie VLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.
Risques identifiés et mesures d'atténuation:
- Perpétuation des biais:nous vous encourageons à effectuer une surveillance continue (à l'aide de métriques d'évaluation et d'examens humains) et à explorer des techniques de débiasage lors de l'entraînement, du réglage fin et d'autres cas d'utilisation des modèles.
- Génération de contenus nuisibles:des mécanismes et des consignes de sécurité des contenus sont essentiels. Les développeurs sont encouragés à faire preuve de prudence et à mettre en place des mesures de sécurité appropriées pour le contenu en fonction des règles spécifiques de leurs produits et des cas d'utilisation de leurs applications.
- Usage à des fins malveillantes:les limites techniques et la formation des développeurs et des utilisateurs finaux peuvent aider à limiter les applications malveillantes des LLM. Des ressources pédagogiques et des mécanismes de signalement sont fournis pour permettre aux utilisateurs de signaler les utilisations abusives. Consultez le kit d'outils pour une IA générative responsable. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.
- Non-respect de la confidentialité:les modèles ont été entraînés sur des données filtrées pour supprimer certaines informations personnelles et données sensibles. Les développeurs sont encouragés à respecter les réglementations sur la confidentialité à l'aide de techniques protégeant la confidentialité.
Limites
- La plupart des limites héritées du modèle Gemma sous-jacent s'appliquent toujours :
- Les VLM sont plus efficaces pour les tâches qui peuvent être définies à l'aide d'invites et d'instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
- Le langage naturel est intrinsèquement complexe. Les VLM peuvent avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
- Les VLM génèrent des réponses en fonction des informations qu'ils ont apprises à partir de leurs ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Ils peuvent générer des déclarations factuelles incorrectes ou obsolètes.
- Les VLM s'appuient sur des tendances statistiques dans le langage et les images. Il peut lui manquer la capacité d'appliquer un raisonnement de bon sens dans certaines situations.
- PaliGemma a été conçu avant tout pour servir de modèle pré-entraîné général à affiner pour des tâches spécialisées. Par conséquent, ses performances "prêt à l'emploi" ou "sans entraînement" peuvent être inférieures à celles des modèles conçus spécifiquement pour une utilisation générale.
- PaliGemma n'est pas un chatbot multitour. Il est conçu pour une seule saisie d'image et de texte.