Consultez le dépôt des livres de recettes Gemma pour des exemples de génération et de réglage ! En savoir plus

Cette page a été traduite par l'API Cloud Translation.

Fiche de modèle PaliGemma

Page du modèle:PaliGemma

Ressources et documentation technique:

Conditions d'utilisation:Conditions

Auteurs:Google

Informations relatives au modèle

Récapitulatif du modèle

Description

PaliGemma est un modèle de langage de vision (VLM, Vision-Language Model) polyvalent et léger inspiré des PaLI-3 et sont basés sur des composants ouverts tels que le modèle de vision SigLIP et le modèle Gemma modèle de langage. Il prend à la fois des images et du texte en entrée et génère du texte en sortie, compatible avec plusieurs langues. Il est conçu pour optimiser les performances sur une large gamme de des tâches liées au langage visuel, comme une image, une courte légende vidéo ou une question visuelle les réponses, la lecture de texte, la détection d'objets et la segmentation d'objets.

Architecture du modèle

PaliGemma est la composition d'un modèle Transformer un décodeur et une image Vision Transformer encodeur, avec un total de 3 milliards de paramètres. Le décodeur de texte est initialisé Gemma-2B L'encodeur d'images initialisé à partir du SigLIP-So400m/14 PaliGemma est entraîné à l'aide des recettes du PaLI-3.

Entrées et sorties

Entrée:image et chaîne de texte, par exemple une requête permettant de sous-titrer l'image, ou une question.
Résultat:texte généré en réponse à l'entrée, par exemple une légende de l'image, une réponse à une question, une liste de cadres de délimitation des objets les coordonnées géographiques ou les mots de code de segmentation.

Données du modèle

Pré-entraîner des ensembles de données

PaliGemma est pré-entraîné sur les ensembles de données suivants:

WebLI:WebLI (Web Language Image) est un ensemble de données d'images et de texte multilingues à l'échelle du Web, créé à partir du Web public. A un large éventail de divisions WebLI permet d'acquérir des capacités de modèle polyvalentes. comme la compréhension sémantique et visuelle, la localisation d'objets, compréhension de texte située visuellement, multilingualité, etc.
CC3M-35L:sélection de paires image/texte en anglais sélectionnées à partir de pages Web (Sharma et al., 2018). Nous avons utilisé l'outil Google Cloud de l'API Translation en 34 langues supplémentaires.
VQ²A-CC3M-35L/VQG-CC3M-35L::sous-ensemble de VQ2A-CC3M (Changpinyo et al., 2022a), traduit dans les mêmes 34 langues supplémentaires que CC3M-35L, en utilisant Google Cloud l'API Translation.
OpenImages:questions/réponses sur la détection et la détection des objets (Piergiovanni et al. 2022), générées par sur l'ensemble de données OpenImages.
WIT:images et textes provenant de Wikipédia (Srinivasan et al., 2021).

Filtrage de la responsabilité des données

Les filtres suivants sont appliqués à WebLI afin d'entraîner PaliGemma sur des données propres:

Filtrage des images pornographiques:ce filtre supprime les images considérées comme appartenant à de nature pornographique.
Filtrage de la sécurité du texte:nous identifions et filtrons les images qui sont associées. contenant du texte à risque. Un "texte non sécurisé" désigne tout texte censé contenir ou décrire Contenus présentant des images d'abus sexuels sur mineurs, de la pornographie, des vulgarités ou tout autre contenu choquant
Filtrage de la toxicité du texte:nous utilisons également le filtre Perspective API pour identifier et filtrer les images associé à du texte jugé insultant, obscène, haineux ou autrement toxique.
Filtrage des informations personnelles:nous avons filtré certaines données et d'autres données sensibles à l'aide de l'API Cloud Data Loss Prevention (DLP) pour protéger la vie privée des individus. Les identifiants tels que les numéros de sécurité sociale d'autres types d'informations sensibles ont été supprimés.
Méthodes supplémentaires:filtrage en fonction de la qualité et de la sécurité du contenu dans respectent nos règles et pratiques.

Informations sur l'implémentation

Matériel

PaliGemma a été entraîné à l'aide de Tensor Processing Unit de dernière génération (TPU) matériel (TPUv5e).

Logiciel

L'entraînement a été effectué à l'aide de JAX, Lin, TFDS et big_vision

JAX permet aux chercheurs de tirer parti de la dernière génération de matériel, y compris les TPU, pour un entraînement plus rapide et plus efficace des grands modèles.

TFDS permet d'accéder aux ensembles de données, tandis que Flax est utilisé pour l'architecture du modèle. La Publication du code d'affinage et d'inférence du code PaliGemma dans le big_vision dépôt GitHub.

Informations sur l'évaluation

Résultats du benchmark

Afin de vérifier la transférabilité du PaliGemma à une grande variété des tâches universitaires, nous affinons les modèles pré-entraînés pour chaque tâche. En outre, nous et entraîner le modèle mixte avec plusieurs tâches de transfert. Nous rapportons les résultats sur différentes résolutions pour donner une idée des tâches qui bénéficient de une meilleure résolution. Il est important de noter qu'aucune de ces tâches ni de ces jeux de données ne fait partie le mélange de données de pré-entraînement, et leurs images sont explicitement supprimées de pré-entraînement à l'échelle du Web.

Tâche unique (affiner une tâche unique)

Benchmark (répartition du train)	Métrique (divisée)	pt-224	pt-448	pt-896
Sous-titrage
COCO caption (train + restval)	CIDEr (val)	141,92	144,60
NoCaps (évaluation du transfert des sous-titres COCO)	CIDEr (val)	121,72	123,58
COCO-35L (train)	Développement CIDEr (en/moy.-34/moy.)	139,2 115,8 116,4	141,2 118,0 118,6
XM3600 (évaluation du transfert COCO-35L)	Développement CIDEr (en/moy.-34/moy.)	78,1 41,3 42,4	80,0 41,9 42,9
TextCaps (train)	CIDEr (val)	127,48	153,94
SciCap (première phrase, sans subfigure) (train+val)	CIDEr/BLEU-4 (test)	162,25 0,192	181,49 0,211
Screen2words (entraînement+dev)	CIDEr (test)	117,57	119,59
Sous-titres pour les widgets (train+dev)	CIDEr (test)	136,07	148,36
Systèmes de questions-réponses
VQAv2 (entraînement + validation)	Précision (serveur de test - standard)	83,19	85,64
MMVP (évaluation du transfert VQAv2)	Précision du couplage	47,33	45,33
POPE (évaluation du transfert VQAv2)	Exactitude (aléatoire, populaire ou antagoniste)	87,80 85,87 84,27	88,23 86,77 85,90
OKVQA (train)	Précision (val)	63,54	63,15
A-OKVQA (MC) (train+val)	Précision (serveur de test)	76,37	76,90
A-OKVQA (DA) (train+val)	Précision (serveur de test)	61,85	63,22
GQA (train_balancing+val_balancing)	Précision (avec équilibrage testdev)	65,61	67,03
xGQA (évaluation du transfert GQA)	Précision moyenne (bn, de, en, id, ko, pt, ru, zh)	58,37	59,07
NLVR2 (train+dev)	Précision (test)	90,02	88,93
MaRVL (évaluation du transfert NLVR2)	Précision moyenne (test) (id, sw, ta, tr, zh)	80,57	76,78
AI2D (train)	Précision (test)	72,12	73,28
ScienceQA (sous-ensemble d'impressions, aucun coût pour les conversions) (train+val)	Précision (test)	95,39	95,93
RSVQA-LR (non numérique) (train+val)	Précision moyenne (test)	92,65	93,11
RSVQA-HR (non numérique) (train+val)	Précision moyenne (test/test2)	92,61 90,58	92,79 90,54
ChartQA (human+aug)x(train+val)	Précision décontractée moyenne (test_human, test_aug)	57,08	71,36
VizWiz VQA (train+val)	Précision (serveur de test - standard)	73,7	75,52
TallyQA (train)	Précision (test_simple/test_complex)	81,72 69,56	84,86 72,27
OCR-VQA (entraînement+val)	Précision (test)	72,32	74,61	74.93
TextVQA (train+val)	Précision (serveur de test - standard)	55,47	73,15	76,48
DocVQA (train+val)	ANLS (serveur de test)	43,74	78,02	84,77
Infographie VQA (train+val)	ANLS (serveur de test)	28,46	40,47	47,75
SceneText VQA (train+val)	ANLS (serveur de test)	63,29	81,82	84,40
Segmentation
RefCOCO (combiné de refcoco, refcoco+, refcocog sans les images val et test)	MIoU (validation) : refcoco/refcoco+/refcocog	73,40 68,32 67,65	75,57 69,76 70,17	76,94 72,18 72,22
Tâches vidéo (sous-titres/QA)
MSR-VTT (sous-titrage)	CIDEr (test)	70,54
MSR-VTT (Contrôle qualité)	Précision (test)	50,09
ActivityNet (sous-titres)	CIDEr (test)	34,62
ActivityNet (Contrôle qualité)	Précision (test)	50,78
VATEX (sous-titres)	CIDEr (test)	79,73
MSVD (Contrôle qualité)	Précision (test)	60,22

Combinaison de modèles (affiner une combinaison de tâches de transfert)

Benchmark	Métrique (divisée)	mix-224	mix-448
MMVP	Précision du couplage	46	45,33
POPE	Exactitude (aléatoire, populaire ou antagoniste)	88,00 86,63 85,67	89,37 88,40 87,47

Benchmark

Métrique (divisée)

mix-224

mix-448

MMVP

Précision du couplage

45,33

POPE

Exactitude (aléatoire, populaire ou antagoniste)

88,00

86,63

85,67

89,37

88,40

87,47

Éthique et sécurité

Approche d'évaluation

Nos méthodes d'évaluation incluent les évaluations structurées et le Red-teaming interne en testant les règles relatives au contenu applicables. La Red Teaming a été menée par un certain nombre de différentes équipes, chacune avec des objectifs et des métriques d'évaluation humaine différents. Ces modèles ont été évalués par rapport à un certain nombre de catégories différentes l'éthique et la sécurité, y compris:

Évaluation manuelle des requêtes portant sur la sécurité des enfants et des contenus des préjudices de représentation. Voir le modèle Gemma Fiche pour plus de détails sur l'approche d'évaluation, mais avec des légendes d'images et des de questions-réponses.
Évaluation du benchmark image-to-Text: comparaison avec des données académiques pertinentes tels que les ensembles de données FairFace (Karkkainen et al., 2021).

Résultats d'évaluation

Les résultats des évaluations humaines des évaluations éthiques et de sécurité sont des seuils acceptables pour atteindre les niveaux internes règles pour des catégories telles que la sécurité des enfants, la sécurité du contenu et la représentation de préjudices.
En plus de solides évaluations internes, nous utilisons l'API Perspective (seuil de 0, 8) pour mesurer la toxicité, le langage vulgaire et d'autres problèmes dans les légendes générées pour les images provenant de FairFace ensemble de données. Nous indiquons les valeurs maximales et médianes observées dans les sous-groupes. pour chacune des caractéristiques de genre, d'origine ethnique et d'âge perçues.

Métrique	Genre perçu		Origine ethnique		Tranche d'âge
	Maximum	Médiane	Maximum	Médiane	Maximum	Médiane
Toxicité	0,04 %	0,03 %	0,08%	0 %	0,09 %	0 %
Attaque d'identité	0 %	0 %	0 %	0 %	0 %	0 %
Insultes	0,06 %	0,04 %	0,09 %	0,07 %	0,16 %	0 %
Menace	0,06 %	0,05 %	0,14 %	0,05 %	0,17%	0 %
Grossièretés	0 %	0 %	0 %	0 %	0 %	0 %

Utilisation et limites

Utilisation prévue

Les modèles de langage Open Vision (VLM) ont de nombreuses applications divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas complètes. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles envisagés par les créateurs du modèle dans le cadre du modèle la formation et le développement.

Affiner une tâche de langage de vision spécifique:

Les modèles pré-entraînés peuvent être affinés sur de nombreux modèles tâches telles que: le sous-titrage d'images, la légende d'une courte vidéo, la question visuelle les réponses, la lecture de texte, la détection d'objets et la segmentation d'objets.
Les modèles pré-entraînés peuvent être affinés pour des domaines spécifiques la détection des réponses à des questions, les questions visuelles des personnes aveugles, les réponses aux questions scientifiques, décrire les fonctionnalités des éléments de l'interface utilisateur.
Les modèles pré-entraînés peuvent être affinés pour les tâches comportant des sorties non textuelles comme les cadres de délimitation ou les masques de segmentation.

Recherche sur le langage visuel:

Les modèles pré-entraînés et affinés peuvent servir de base pour d'expérimenter les techniques de machine learning, de développer des algorithmes et contribuent aux progrès du domaine.

Considérations et risques éthiques

Le développement des modèles de langage de vision (VLM) soulève plusieurs questions des problèmes. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:

Biais et équité <ph type="x-smartling-placeholder">
- Les VLM entraînés sur des données images/texte réelles à grande échelle peuvent refléter les préjugés socio-culturels intégrés dans les supports de formation. Ces modèles a fait l'objet d'un examen approfondi, le prétraitement des données d'entrée décrit et les évaluations ultérieures présentées sur cette fiche.
Désinformation et usage abusif <ph type="x-smartling-placeholder">
- Les VLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou dangereux.
- Des consignes sont fournies pour une utilisation responsable avec le modèle. Consultez les kit d'IA générative responsable.
Transparence et responsabilité <ph type="x-smartling-placeholder">
- Cette fiche de modèle résume les détails de l'architecture les capacités, les limites et les processus d'évaluation.
- Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie VLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.

Risques identifiés et atténuation:

Perpétuation des biais:il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examens manuels) et d'exploration de la suppression des biais pendant l'entraînement du modèle, l'affinage et d'autres cas d'utilisation.
Génération de contenus nuisibles:mécanismes et consignes concernant les contenus la sécurité sont essentiels. Nous encourageons les développeurs à faire preuve de prudence mettre en place les mesures de sécurité appropriées, en fonction règles relatives aux produits et cas d'utilisation d'applications.
Usage abusif à des fins malveillantes:limites techniques et la sensibilisation des utilisateurs finaux peut aider à limiter les applications malveillantes des LLM. Les ressources pédagogiques et les mécanismes de signalement permettant aux utilisateurs de signaler les usages abusifs sont fournie: voir le kit d'IA générative responsable. Utilisations interdites de la Gemma sont décrits dans le règlement sur les utilisations interdites de la Gemma.
Non-respect de la confidentialité:les modèles ont été entraînés avec des données filtrées afin de les supprimer. certaines informations personnelles et données sensibles. Nous encourageons les développeurs respecter les réglementations sur la confidentialité avec des techniques protégeant la confidentialité.

Limites

La plupart des limites héritées du modèle Gemma sous-jacent s'appliquent toujours: <ph type="x-smartling-placeholder">
- Les VLM sont plus efficaces pour les tâches qui peuvent être encadrées par des invites claires et instructions. Les tâches ouvertes ou très complexes peuvent être difficiles.
- Le langage naturel est complexe par nature. Les VLM peuvent avoir du mal à comprendre des nuances subtiles, du sarcasme ou du langage figuratif.
- Les VLM génèrent des réponses en fonction des informations qu'ils ont apprises des ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes ;
- Les VLM s'appuient sur des modèles statistiques dans le langage et les images. Il pourrait n’ont pas la capacité d’appliquer le raisonnement de bon sens dans certaines situations.
Le PaliGemma a été conçu avant tout pour servir de modèle général d'entraînement pour l'adapter aux tâches spécialisées. C'est pourquoi il est "prêt à l'emploi" ou "Zero-shot" peuvent être à la traîne par rapport aux modèles spécialement conçus ça.
PaliGemma n'est pas un chatbot multitour. Il est conçu pour une seule série d'images et de texte.