Fiche de modèle PaliGemma 2

Page du modèle:PaliGemma

Ressources et documentation technique:

Conditions d'utilisation:Conditions

Auteurs:Google

Informations relatives au modèle

Récapitulatif du modèle

PaliGemma 2 est une mise à jour du modèle de vision-langage (VLM) PaliGemma, qui intègre les fonctionnalités des modèles Gemma 2. La famille de modèles PaliGemma est inspirée de PaLI-3 et basée sur des composants ouverts tels que le modèle de vision SigLIP et les modèles de langage Gemma 2. Il accepte à la fois l'image et le texte en entrée, et génère du texte en sortie, avec prise en charge de plusieurs langues. Il est conçu pour offrir des performances de réglage fin de premier ordre sur un large éventail de tâches de vision-langage, telles que la création de sous-titres pour des images et des courtes vidéos, la réponse à des questions visuelles, la lecture de texte, la détection d'objets et la segmentation d'objets.

Architecture du modèle

PaliGemma 2 est composé d'un décodeur Transformer et d'un encodeur d'image Vision Transformer. Le décodeur de texte est initialisé à partir de Gemma 2 dans les tailles de paramètres 2 milliards, 9 milliards et 27 milliards. L'encodeur d'image est initialisé à partir de SigLIP-So400m/14. Comme le modèle PaliGemma d'origine, PaliGemma 2 est entraîné en suivant les recettes PaLI-3.

Entrées et sorties

  • Entrée:image et chaîne de texte, comme une requête pour ajouter une légende à l'image ou une question.
  • Sortie:texte généré en réponse à l'entrée, comme une légende de l'image, une réponse à une question, une liste de coordonnées du cadre de délimitation de l'objet ou des mots de code de segmentation.

Citation

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Données du modèle

Entraînement préalable des ensembles de données

PaliGemma 2 est pré-entraîné sur le mélange d'ensembles de données suivant:

  • WebLI:WebLI (Web Language Image) est un ensemble de données image-texte multilingue à l'échelle du Web, créé à partir du Web public. Un large éventail de divisions WebLI est utilisé pour acquérir des fonctionnalités de modèle polyvalentes, telles que la compréhension sémantique visuelle, la localisation d'objets, la compréhension du texte située visuellement et la multilinguisme.
  • CC3M-35L:paires image-texte alternatif en anglais sélectionnées à partir de pages Web (Sharma et al., 2018). Nous avons utilisé l'API Google Cloud Translation pour traduire dans 34 langues supplémentaires.
  • VQ²A-CC3M-35L/VQG-CC3M-35L::sous-ensemble de VQ2A-CC3M (Changpinyo et al., 2022a), traduit dans les 34 langues supplémentaires de CC3M-35L à l'aide de l'API Google Cloud Translation.
  • OpenImages:détection et questions et réponses sensibles aux objets (Piergiovanni et al., 2022) générées par des règles créées manuellement sur l'ensemble de données OpenImages.
  • WIT:images et textes collectés sur Wikipedia (Srinivasan et al., 2021).

PaliGemma 2 est basé sur Gemma 2. Vous trouverez des informations sur les ensembles de données de pré-entraînement pour Gemma 2 dans la fiche de modèle Gemma 2.

Filtrage de la responsabilité des données

Les filtres suivants sont appliqués à WebLI dans le but d'entraîner PaliGemma 2 sur des données sûres et responsables:

  • Filtrage des images pornographiques:ce filtre supprime les images jugées à caractère pornographique.
  • Filtrage de sécurité du texte:nous identifions et filtrons les images associées à du texte non sécurisé. Un texte dangereux est tout texte considéré comme contenant des images d'abus sexuels sur mineurs, de la pornographie, des propos vulgaires ou autrement choquants.
  • Filtrage de la toxicité du texte:nous utilisons également l'API Perspective pour identifier et filtrer les images associées à du texte jugé insultant, obscène, haineux ou autrement toxique.
  • Filtrage des informations personnelles dans le texte:nous avons filtré certaines informations personnelles et d'autres données sensibles à l'aide de l'API Cloud Data Loss Prevention (DLP) pour protéger la confidentialité des individus. Les identifiants tels que les numéros de sécurité sociale et d'autres types d'informations sensibles ont été supprimés.
  • Méthodes supplémentaires:filtrage en fonction de la qualité et de la sécurité des contenus, conformément à nos règles et pratiques.

Informations d'implémentation

Matériel

PaliGemma 2 a été entraîné à l'aide de la dernière génération de matériel TPU (Tensor Processing Unit) (TPUv5e).

Logiciel

L'entraînement a été effectué à l'aide de JAX, Flax, TFDS et big_vision.

JAX permet aux chercheurs de tirer parti de la dernière génération de matériel, y compris des TPU, pour un entraînement plus rapide et plus efficace de grands modèles.

TFDS permet d'accéder aux ensembles de données, tandis que Flax est utilisé pour l'architecture du modèle. Le code d'ajustement fin et le code d'inférence de PaliGemma 2 sont publiés dans le dépôt GitHub big_vision.

Informations sur l'évaluation

Résultats du benchmark

Afin de vérifier la transférabilité de PaliGemma 2 à un large éventail de tâches académiques, nous affinons les modèles pré-entraînés pour chaque tâche. Nous rapportons les résultats pour différentes résolutions afin de vous donner une idée des tâches qui bénéficient d'une résolution plus élevée. Il est important de noter qu'aucune de ces tâches ou de ces ensembles de données ne fait partie du mélange de données de pré-entraînement, et que leurs images sont explicitement supprimées des données de pré-entraînement à l'échelle du Web.

Résultats de PaliGemma 2 en fonction de la résolution et de la taille du modèle

Benchmark 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74,7 83,1 83,2 76 84,4 84,6
AOKVQA-DA (val) 64.2 68,9 70.2 67,9 70,8 71.2
AOKVQA-MC (val) 79,7 83,7 84,7 82,5 85,9 87
ActivityNet-CAP 34,2 35,9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113,9 115,8 116,5 115,8 117,2 117,2
COCO-35L (en) 138,4 140,8 142,4 140,4 142,4 142,3
COCOcap 141.3 143,7 144,0 143,4 145,0 145,2
ChartQA (moyenne) 74,4 74,2 68,9 89,2 90,1 85,1
ChartQA (humain) 42 48,4 46,8 54 66,4 61.3
CountBenchQA 81 84 86,4 82 85,3 87,4
DocVQA (val) 39.9 43,9 44,9 73,6 76,6 76,1
GQA 66,2 67.2 67,3 68.1 68,3 68,3
InfoVQA (val) 25,2 33,6 36,4 37,5 47,8 46,7
MARVL (avg5) 83,5 89,5 90,6 82,7 89,1 89.7
MSRVTT-CAP 68,5 72.1 - - - -
MSRVTT-QA 50,5 51,9 - - - -
MSVD-QA 61.1 62,5 - - - -
NLVR2 91,4 93,9 94,2 91,6 93,7 94,1
NoCaps 123.1 126,3 127.1 123,5 126,9 127.0
OCR-VQA 73,4 74,7 75,3 75,7 76,3 76,6
OKVQA 64.2 68 71.2 64.1 68,6 70,6
RSVQA-hr (test) 92,7 92,6 92,7 92,8 92,8 92,8
RSVQA-hr (test2) 90,9 90,8 90,9 90,7 90,7 90,8
RSVQA-lr 93 92,8 93,5 92,7 93,1 93,7
RefCOCO (test A) 75,7 77.2 76,8 78,6 79,7 79,3
RefCOCO (testB) 71 74,2 73,9 73,5 76,2 74,8
RefCOCO (val) 73,4 75,9 75 76,3 78,2 77,3
RefCOCO+ (testA) 72,7 74,7 73,6 76,1 77,7 76,6
RefCOCO+ (testB) 64.2 68,4 67,1 67 71.1 68,6
RefCOCO+ (val) 68,6 72 70,3 72.1 74,4 72,8
RefCOCOg (test) 69 71,9 70,7 72,7 74,8 73,7
RefCOCOg (val) 68,3 71,4 70,5 72.3 74,4 73
ST-VQA (val) 61,9 64.3 65.1 80,5 82 81,8
SciCap 165.1 159,5 156,9 183,3 177.2 172.7
ScienceQA 96,1 98,2 98,2 96,2 98,5 98,6
Screen2Words 113,3 117,8 122,8 114,0 119.1 123,4
TallyQA (complexe) 70,3 73,4 74,2 73,6 76,7 76,8
TallyQA (simple) 81,8 83,2 83,4 85,3 86,2 85,7
TextCaps 127,5 137,9 139,9 152.1 157,7 153,6
TextVQA (val) 59,6 64 64,7 75,2 76,6 76,2
VATEX 80,8 82,7 - - - -
VQAv2 (minival) 83,0 84,3 84,5 84,8 85,8 85,8
VizWizVQA (val) 76,4 78,1 78,7 77,5 78,6 78,9
WidgetCap 138.1 139,8 138,8 151.4 151,9 148,9
XM3600 (avg35) 42,8 44.5 45,2 43,2 44,6 45,2
XM3600 79,8 80,7 81 80,3 81,5 81
xGQA (moyenne sur sept) 58,6 61.4 61.1 60,4 62,6 62,1

Autres benchmarks

ICDAR 2015 Incidental

Modèle Précision Rappel F1
PaliGemma 2 3B 81,88 70,73 75,9

Total-Text

Modèle Précision Rappel F1
PaliGemma 2 3B 73,8. 74,54 74,17

FinTabNet

Modèle S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99,18 98,94 99,43 99,21

PubTabNet

Modèle S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97,6 97,31 97,99 97,84

GrandStaff

Modèle CER LER SER
PaliGemma 2 3B 1,6 6,7 2.3

PubChem

  • PaliGemma 2 3B, correspondance complète: 94,8

DOCCI

Modèle avg#char avg#sent NES %
PaliGemma 2 3B 529 7,74 28.42
PaliGemma 2 10B 521 7,45 20.27
  • avg#char: nombre moyen de caractères
  • avg#sent: nombre moyen de phrases
  • NES: phrases non-entailment

MIMIC-CXR

Modèle CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19,9% 14,6 % 31,92% 28.8%
PaliGemma 2 10B 17,4% 15 % 32,41% 29,5%

Raisonnement spatial visuel

Modèle Test de répartition sans échantillon de VSR Répartition aléatoire de la VSR (test)
PaliGemma 2 3B 0,75 0.82
PaliGemma 2 10B 0.80 0,87

Éthique et sécurité

Approche d'évaluation

Nos méthodes d'évaluation incluent des évaluations éthiques et de sécurité structurées en fonction des règles concernant les contenus pertinentes, y compris les suivantes:

  • Évaluation humaine des requêtes concernant la sécurité des enfants, la sécurité des contenus et les risques de représentation. Pour en savoir plus sur l'approche d'évaluation, consultez la fiche du modèle Gemma, mais avec des configurations de sous-titrage d'image et de questions-réponses visuelles.
  • Évaluation du benchmark de conversion d'image en texte: comparaison avec des ensembles de données universitaires pertinents tels que l'ensemble de données FairFace (Karkkainen et al., 2021).

Résultats d'évaluation

  • Les résultats de l'évaluation humaine de l'éthique et de la sécurité sont conformes aux Règles internes pour des catégories telles que la sécurité des enfants, la sécurité du contenu et les préjudices représentationnels.
  • En plus des évaluations internes rigoureuses, nous utilisons également l'API Perspective (seuil de 0, 8) pour mesurer la toxicité, les jurons et d'autres problèmes potentiels dans les sous-titres générés pour les images issues de l'ensemble de données FairFace. Nous rapportons les valeurs maximales et médianes observées dans les sous-groupes pour chacun des attributs de genre, d'ethnicité et d'âge perçus.
Métrique Genre perçu Origine ethnique Tranche d'âge
Taille du modèle 3 MRDS 10 Md 28 B 3 MRDS 10 Md 28 B 3 MRDS 10 Md 28 B
Maximum
Toxicité 0,14 % 0,15 % 0,19% 0,29% 0,39% 0,39% 0,26 % 0,18 % 0,32%
Attaque portant sur l'identité 0,04 % 0.02% 0.02% 0,13 % 0,06 % 0,06 % 0,06 % 0,03 % 0,06 %
Insultes 0,17% 0,25% 0,17% 0,37 % 0,52 % 0,52 % 0,27% 0,39% 0,24%
Menace 0,55% 0,43 % 0,57% 0,83 % 0,48% 0,48% 0,64 % 0,43 % 0,64 %
Grossièretés 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 %
Médiane
Toxicité 0,13 % 0,10% 0,18 % 0,07 % 0,07 % 0,14 % 0,12 % 0,08% 0,12 %
Attaque portant sur l'identité 0.02% 0,01 % 0.02% 0 % 0 % 0 % 0 % 0 % 0 %
Insultes 0,15 % 0,23 % 0,14 % 0,14 % 0,17% 0,13 % 0,09 % 0,18 % 0,16 %
Menace 0,35% 0,27% 0,41% 0,28% 0,19% 0,42 % 0,27% 0,31% 0,40 %
Grossièretés 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 %

Utilisation et limites

Utilisation prévue

Les modèles de langage visuel (VLM) ouverts ont de nombreuses applications dans différents secteurs et domaines. La liste suivante des utilisations potentielles n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont pris en compte lors de l'entraînement et du développement du modèle. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.

Ajustez votre modèle pour une tâche de vision-langage spécifique:

  • Les modèles pré-entraînés peuvent être affinés pour un large éventail de tâches de vision-langage, telles que la création de légendes pour des images et des courtes vidéos, la réponse à des questions visuelles, la lecture de texte, la détection et la segmentation d'objets.
  • Les modèles pré-entraînés peuvent être affinés pour des domaines spécifiques tels que la réponse aux questions de télédétection, les questions visuelles des personnes non voyantes, la réponse aux questions scientifiques et la description des fonctionnalités des éléments d'interface utilisateur.
  • Les modèles pré-entraînés peuvent être affinés pour les tâches dont les sorties ne sont pas textuelles, comme les cadres de délimitation ou les masques de segmentation.

Recherches sur le langage visuel:

  • Les modèles pré-entraînés et les modèles affinés peuvent servir de base aux chercheurs pour tester les techniques de VLM, développer des algorithmes et contribuer au développement du domaine.

Considérations et risques éthiques

Le développement de modèles vision-langage (VLM) soulève plusieurs problèmes éthiques. Pour créer un modèle ouvert, nous avons pris en compte les points suivants:

  • Biais et équité
    • Les VLM entraînés sur des données image-texte réelles à grande échelle peuvent refléter des biais socioculturels intégrés au matériel d'entraînement. Ces modèles ont été examinés avec soin, le prétraitement des données d'entrée a été décrit et les évaluations ultérieures ont été signalées dans cette fiche.
  • Informations incorrectes et utilisation abusive
    • Les VLM peuvent être utilisées de manière abusive pour générer du texte faux, trompeur ou nuisible.
    • Des consignes sont fournies pour une utilisation responsable du modèle. Consultez le kit IA générative responsable.
  • Transparence et responsabilité
    • Cette fiche de modèle résume les informations sur l'architecture, les fonctionnalités, les limites et les processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie VLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.

Risques identifiés et mesures d'atténuation:

  • Perpétuation des biais:nous vous encourageons à effectuer une surveillance continue (à l'aide de métriques d'évaluation et d'examens humains) et à explorer des techniques de débiasage lors de l'entraînement, du réglage fin et d'autres cas d'utilisation des modèles.
  • Génération de contenus nuisibles:des mécanismes et des consignes de sécurité des contenus sont essentiels. Les développeurs sont encouragés à faire preuve de prudence et à mettre en place des mesures de sécurité appropriées pour le contenu en fonction des règles spécifiques de leurs produits et des cas d'utilisation de leurs applications.
  • Usage à des fins malveillantes:les limites techniques et la formation des développeurs et des utilisateurs finaux peuvent aider à limiter les applications malveillantes des LLM. Des ressources pédagogiques et des mécanismes de signalement sont fournis pour permettre aux utilisateurs de signaler les utilisations abusives. Consultez le kit d'outils pour une IA générative responsable. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.
  • Non-respect de la confidentialité:les modèles ont été entraînés sur des données filtrées pour supprimer certaines informations personnelles et données sensibles. Les développeurs sont encouragés à respecter les réglementations sur la confidentialité à l'aide de techniques protégeant la confidentialité.

Limites

  • La plupart des limites héritées des modèles Gemma 2 sous-jacents s'appliquent toujours :
    • Les VLM sont plus efficaces pour les tâches qui peuvent être définies à l'aide d'invites et d'instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Le langage naturel est intrinsèquement complexe. Les VLM peuvent avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
    • Les VLM génèrent des réponses en fonction des informations qu'ils ont apprises à partir de leurs ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Ils peuvent générer des déclarations factuelles incorrectes ou obsolètes.
    • Les VLM s'appuient sur des tendances statistiques dans le langage et les images. Il peut lui manquer la capacité d'appliquer un raisonnement de bon sens dans certaines situations.
  • PaliGemma 2 a été conçu avant tout pour servir de modèle pré-entraîné général à affiner pour des tâches spécialisées. Par conséquent, ses performances "prêt à l'emploi" ou "sans entraînement" peuvent être inférieures à celles des modèles conçus spécifiquement pour un usage général.
  • PaliGemma 2 n'est pas un chatbot multitours. Il est conçu pour une seule saisie d'image et de texte.