Fiche de modèle PaliGemma

Page du modèle:PaliGemma

Ressources et documentation technique:

Conditions d'utilisation:Conditions

Auteurs:Google

Informations relatives au modèle

Récapitulatif du modèle

Description

PaliGemma est un modèle de vision-language (VLM) polyvalent et léger, qui s'inspire de PaLI-3 et qui repose sur des composants ouverts tels que le modèle de vision SigLIP et le modèle de langage Gemma. Il accepte à la fois des images et du texte en entrée et génère du texte en sortie, compatible avec plusieurs langues. Il est conçu pour optimiser les performances d'un large éventail de tâches en langage de vision, telles que les sous-titres d'image et de vidéo courte, la réponse visuelle à des questions, la lecture de texte, la détection d'objets et la segmentation d'objets.

Architecture du modèle

PaliGemma est composé d'un décodeur Transformer et d'un encodeur d'image Vision Transformer, avec un total de trois milliards de paramètres. Le décodeur de texte est initialisé à partir de Gemma-2B. L'encodeur d'image est initialisé à partir de SigLIP-So400m/14. PaliGemma est entraîné en suivant les recettes PaLI-3.

Entrées et sorties

  • Entrée:image et chaîne de texte, telle qu'une invite à ajouter une légende à l'image ou une question.
  • Sortie:texte généré en réponse à l'entrée, tel qu'une légende de l'image, une réponse à une question, une liste de coordonnées du cadre de délimitation des objets ou des mots de code de segmentation.

Données du modèle

Pré-entraîner des ensembles de données

PaliGemma est pré-entraîné sur la combinaison d'ensembles de données suivante:

  • WebLI:WebLI (Web Language Image) est un ensemble de données d'images multilingues à l'échelle du Web créé à partir du Web public. Une large gamme de divisions WebLI permet d'acquérir des fonctionnalités polyvalentes pour les modèles, telles que la compréhension sémantique visuelle, la localisation d'objets, la compréhension de la situation visuelle du texte, la multilingualité, etc.
  • CC3M-35L:sélection de paires image-alt_text en anglais tirées de pages Web (Sharma et al., 2018). Nous avons utilisé l'API Google Cloud Translation pour traduire dans 34 langues supplémentaires.
  • VQ²A-CC3M-35L/VQG-CC3M-35L::sous-ensemble de VQ2A-CC3M (Changpinyo et al., 2022a), traduit dans les 34 langues supplémentaires de CC3M-35L à l'aide de l'API Google Cloud Translation.
  • OpenImages:questions et réponses de détection et de détection d'objets (Piergiovanni et al. 2022) générées par des règles artisanales sur l'ensemble de données OpenImages.
  • WIT:images et textes recueillis sur Wikipédia (Srinivasan et al., 2021).

Filtrage de la responsabilité des données

Les filtres suivants sont appliqués à WebLI, dans le but d'entraîner PaliGemma sur des données propres:

  • Filtrage des images pornographiques:ce filtre supprime les images considérées comme pornographiques.
  • Filtrage de la sécurité du texte:nous identifions et filtrons les images associées à du texte dangereux. On qualifie de "texte non sécurisé" tout texte considéré comme contenant des images d'abus sexuels sur mineurs, à caractère pornographique, vulgaire ou autrement choquant, ou s'y rapportant.
  • Filtrage de la toxicité des textes:nous utilisons également l'API Perspective pour identifier et filtrer les images associées à du texte jugé insultant, obscène, haineux ou toxique.
  • Filtrage des informations personnelles dans le texte:nous avons filtré certaines informations personnelles et d'autres données sensibles à l'aide de l'API Cloud Data Loss Prevention (DLP) afin de protéger la vie privée des personnes. Les identifiants tels que les numéros de sécurité sociale et d'autres types d'informations sensibles ont été supprimés.
  • Méthodes supplémentaires:filtrage basé sur la qualité et la sécurité du contenu, conformément à nos règles et pratiques.

Informations sur l'implémentation

Matériel

PaliGemma a été entraîné à l'aide de la dernière génération de matériel TPU (TPU) (Tensor Processing Unit).

Logiciels

L'entraînement a été effectué à l'aide de JAX, Flax, TFDS et big_vision.

JAX permet aux chercheurs d'exploiter la dernière génération de matériel, y compris les TPU, pour entraîner plus rapidement et plus efficacement des modèles volumineux.

TFDS permet d'accéder aux ensembles de données, tandis que Flax est utilisé pour l'architecture des modèles. Le code d'affinage et le code d'inférence PalmiGemma sont publiés dans le dépôt GitHub big_vision.

Informations sur l'évaluation

Résultats du benchmark

Afin de vérifier la transférabilité de PaliGemma à une grande variété de tâches universitaires, nous ajustons les modèles pré-entraînés pour chaque tâche. De plus, nous entraînons le modèle de mixage avec une combinaison de tâches de transfert. Nous affichons les résultats de différentes résolutions pour indiquer les tâches qui bénéficient d'une meilleure résolution. Il est important de noter qu'aucune de ces tâches ou de ces ensembles de données ne fait partie du mélange de données de pré-entraînement, et leurs images sont explicitement supprimées des données de pré-entraînement à l'échelle du Web.

Tâche unique (affinage sur une seule tâche)

Benchmark (répartition de l'entraînement) Métrique (répartition) pt-224 pt-448 pt-896
Sous-titrage
Sous-titres COCO (entraînement + restauration) CIDEr (val) 141,92 144,60
NoCaps (évaluation du transfert des sous-titres COCO) CIDEr (val) 121,72 123,58
COCO-35L (train) Dév. CIDEr (en/avg-34/moy.)
139,2
115,8
116,4
141.2
118.0
118.6
XM3600 (évaluation du transfert COCO-35L) Dév. CIDEr (en/avg-34/moy.)
78.1
41.3
42.4
80,0
41,9
42,9
TextCaps (entraînement) CIDEr (val) 127,48 153,94
SciCap (première phrase, pas de sous-figure) (entraînement + val) CIDEr/BLEU-4 (test)
162,25
0,192
181,49
0,211
Screen2words (entraînement + développement) CIDEr (test) 117,57 119,59
Sous-titrage de widgets (train+dev) CIDEr (test) 136,07 148,36
Systèmes de questions-réponses
VQAv2 (entraînement + validation) Précision (serveur de test - standard) 83,19 85,64
MMVP (évaluation du transfert VQAv2) Précision associée 47,33 45,33
POPE (évaluation du transfert VQAv2) Exactitude (aléatoire/populaire/agressive)
87.80
85.87
84.27
88.23
86,77
85,90
OKVQA (entraînement) Justesse (val) 63,54 63,15
A-OKVQA (MC) (entraînement + val) Précision (serveur de test) 76,37 76,90
A-OKVQA (DA) (entraînement + val) Précision (serveur de test) 61,85 63,22
GQA (entraînement équilibré + valeur équilibrée) Précision (testdev équilibré) 65,61 67,03
xGQA (évaluation du transfert GQA) Précision moyenne (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (entraînement + développement) Précision (test) 90,02 88,93
MaRVL (évaluation du transfert NLVR2) Justesse moyenne (test) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (entraînement) Précision (test) 72,12 73,28
ScienceQA (sous-ensemble Img, sans CoT) (entraînement + valeur) Précision (test) 95,39 95,93
RSVQA-LR (non numérique) (entraînement+val) Justesse moyenne (test) 92,65 93,11
RSVQA-HR (non numérique) (entraînement+val) Précision moyenne (test/test2)
92,61
90,58
92,79
90,54
ChartQA (humain+aug)x(train+val) Précision moyenne moyenne (test_human, test_aug) 57,08 71,36
VizWiz VQA (entraînement + val) Précision (serveur de test - standard) 73,7 75,52
TallyQA (entraînement) Précision (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (entraînement + évaluation) Précision (test) 72,32 74,61 74.93
TextVQA (entraînement + val) Précision (serveur de test - standard) 55,47 73,15 76,48
DocVQA (entraînement+val) ANLS (serveur de test) 43,74 78,02 84,77
VQA de l'infographie (entraînement + val) ANLS (serveur de test) 28,46 40,47 47,75
SceneText VQA (entraînement+val) ANLS (serveur de test) 63,29 81,82 84,40
Segmentation
RefCOCO (combinaison de refcoco, refcoco+, refcocog à l'exception de la val et images de test) MIoU (validation) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75,57
69,76
70,17
76.94
72.18
72.22
Tâches vidéo (sous-titres/contrôle qualité)
MSR-VTT (sous-titrage) CIDEr (test) 70,54
MSR-VTT (QA) Précision (test) 50,09
ActivityNet (sous-titrage) CIDEr (test) 34,62
ActivityNet (QA) Précision (test) 50,78
VATEX (sous-titrage) CIDEr (test) 79,73
MSVD (contrôle qualité) Précision (test) 60,22

Modèle mixte (affinage sur une combinaison de tâches de transfert)

Benchmark Métrique (répartition) mix-224 mix-448
MMVP Précision associée 46,00 45,33
POPE Exactitude (aléatoire/populaire/agressive)
88,00
86,63
85,67
89.37
88.40
87.47

Éthique et sécurité

Approche d'évaluation

Nos méthodes d'évaluation incluent des évaluations structurées et des tests internes de simulation des règles relatives au contenu applicables. La Red Team a été menée par plusieurs équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaines différents. Ces modèles ont été évalués selon différentes catégories en rapport avec l'éthique et la sécurité, parmi lesquelles:

  • Évaluation humaine sur les requêtes portant sur la sécurité des enfants et des contenus, et les préjudices représentatifs Consultez la fiche du modèle Gemma pour en savoir plus sur l'approche d'évaluation, mais aussi sur les configurations de sous-titrage d'images et de questions-réponses visuelles.
  • Évaluation du benchmark image-to-Text: effectuez une analyse comparative avec des ensembles de données universitaires pertinents tels que FairFace (Karkkainen et al., 2021).

Résultats d'évaluation

  • Les résultats des évaluations de l'éthique et de la sécurité par un humain respectent les seuils acceptables pour respecter les règles internes définies pour des catégories telles que la sécurité des enfants, la sécurité des contenus et les préjudices liés à la représentation.
  • En plus de solides évaluations internes, nous utilisons également l'API Perspective (seuil de 0, 8) pour mesurer la toxicité, le langage vulgaire et d'autres problèmes potentiels dans les sous-titres générés pour les images provenant de l'ensemble de données FairFace. Nous présentons les valeurs maximales et médianes observées dans les sous-groupes pour chacun des attributs de genre, d'origine ethnique et d'âge perçus.
Métrique Genre perçu Origine ethnique Tranche d'âge
Maximum Médiane Maximum Médiane Maximum Médiane
Toxicité 0,04 % 0,03 % 0,08% 0 % 0,09 % 0 %
Attaque d'identité 0 % 0 % 0 % 0 % 0 % 0 %
Insultes 0,06 % 0,04 % 0,09 % 0,07 % 0,16 % 0 %
Menace 0,06 % 0,05 % 0,14 % 0,05 % 0,17% 0 %
Grossièretés 0 % 0 % 0 % 0 % 0 % 0 %

Utilisation et limites

Utilisation prévue

Les modèles de langage Open Vision (VLM, Open Vision Language Model) bénéficient d'un large éventail d'applications dans divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont envisagés pour l'entraînement et le développement du modèle.

Ajustez une tâche spécifique en langage visuel:

  • Les modèles pré-entraînés peuvent être affinés sur un large éventail de tâches en langage visuel, telles que le sous-titrage d'images, les sous-titres de courtes vidéos, la réponse visuelle à des questions, la lecture de texte, la détection d'objets et la segmentation d'objets.
  • Les modèles pré-entraînés peuvent être affinés pour des domaines spécifiques tels que la détection à distance de questions-réponses, les questions visuelles de personnes aveugles, les réponses à des questions scientifiques, la description des fonctionnalités des éléments d'interface utilisateur.
  • Les modèles pré-entraînés peuvent être affinés pour des tâches avec des sorties non textuelles telles que des cadres de délimitation ou des masques de segmentation.

Recherche en langage visuel:

  • Les modèles pré-entraînés et les modèles affinés peuvent servir de base aux chercheurs pour expérimenter les techniques de VLM, développer des algorithmes et contribuer aux progrès dans ce domaine.

Considérations et risques éthiques

Le développement des modèles de langage visuel (VLM) soulève plusieurs questions éthiques. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:

  • Biais et équité
    • Les VLM entraînés sur des données de texte d'image réelles à grande échelle peuvent refléter les biais socioculturels intégrés au support de formation. Ces modèles ont fait l'objet d'un examen minutieux, le prétraitement des données d'entrée est décrit et les évaluations postérieures sont mentionnées dans cette fiche.
  • Informations incorrectes et usage abusif
    • Les VLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou nuisible.
    • Les consignes sont fournies pour une utilisation responsable avec le modèle. Consultez le kit d'IA générative responsable.
  • Transparence et responsabilité
    • Cette fiche de modèle résume les détails de l'architecture, des capacités, des limites et des processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie de VLM accessible aux développeurs et aux chercheurs de l'écosystème d'IA.

Risques identifiés et mesures d'atténuation:

  • Perpétuation des biais:nous vous encourageons à effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examen manuel) et à explorer les techniques de suppression des biais pendant l'entraînement du modèle, l'ajustement et d'autres cas d'utilisation.
  • Génération de contenus nuisibles:il est essentiel de mettre en place des mécanismes et des consignes concernant la sécurité des contenus. Nous encourageons les développeurs à faire preuve de prudence et à mettre en œuvre des mesures de sécurité appropriées pour la sécurité du contenu, en fonction de leurs règles spécifiques aux produits et des cas d'utilisation de leurs applications.
  • Usage abusif à des fins malveillantes:les limites techniques et les formations destinées aux développeurs et aux utilisateurs finaux peuvent aider à limiter les applications malveillantes de LLM. Des ressources pédagogiques et des mécanismes de signalement permettant aux utilisateurs de signaler les utilisations abusives sont fournis: consultez le kit d'IA générative responsable. Les utilisations interdites des modèles Gemma sont décrites dans le règlement sur les utilisations interdites de Gemma.
  • Non-respect de la confidentialité:les modèles ont été entraînés sur des données filtrées afin de supprimer certaines informations personnelles et données sensibles. Nous encourageons les développeurs à respecter les réglementations sur la confidentialité avec des techniques protégeant la confidentialité.

Limites

  • La plupart des limites héritées du modèle Gemma sous-jacent s'appliquent toujours :
    • Les VLM sont plus efficaces pour les tâches qui peuvent être accompagnées d'invites et d'instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Le langage naturel est intrinsèquement complexe. Les VLM peuvent avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
    • Les VLM génèrent des réponses en fonction des informations qu'ils ont apprises dans les ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes.
    • Les VLM s'appuient sur des modèles statistiques pour le langage et les images. Ils pourraient ne pas être en mesure d’appliquer un raisonnement de bon sens dans certaines situations.
  • PaliGemma a d'abord été conçu pour servir de modèle général pré-entraîné afin d'optimiser des tâches spécialisées. Par conséquent, ses performances prêtes à l'emploi ou "zero-shot" peuvent être inférieures aux modèles conçus spécifiquement pour cela.
  • PaliGemma n'est pas un chatbot multitours. Il est conçu pour un seul cycle d'entrées d'image et de texte.