Fiche de modèle Gemma

Page du modèle: Gemma

Ressources et documentation technique:

Conditions d'utilisation: Conditions

Auteurs: Google

Infos sur le modèle

Description récapitulative et brève définition des entrées et des sorties.

Description

Gemma est une famille de modèles ouverts, légers et à la pointe de la technologie de Google, basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini. Il s'agit de grands modèles de langage de conversion texte-texte, basés sur un décodeur uniquement, disponibles en anglais, avec des poids ouverts, des variantes pré-entraînées et des variantes adaptées aux instructions. Les modèles Gemma sont adaptés à diverses tâches de génération de texte, y compris les réponses aux questions, la synthèse et le raisonnement. Leur taille relativement petite permet de les déployer dans des environnements aux ressources limitées, comme un ordinateur portable, un ordinateur de bureau ou votre propre infrastructure cloud. Cela permet de démocratiser l'accès aux modèles d'IA de pointe et de favoriser l'innovation pour tous.

Entrées et sorties

  • Entrée:chaîne de texte, telle qu'une question, une requête ou un document à résumer.
  • Sortie:texte généré en anglais en réponse à l'entrée, par exemple une réponse à une question ou un résumé d'un document.

Citation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Données du modèle

Données utilisées pour entraîner le modèle et mode de traitement des données

Ensemble de données d'entraînement

Ces modèles ont été entraînés sur un ensemble de données textuelles qui comprend un large éventail de sources, soit un total de 6 milliards de jetons. Voici les principaux composants:

  • Documents Web: une collection variée de textes Web garantit que le modèle est exposé à un large éventail de styles linguistiques, de sujets et de vocabulaires. Contenu principalement en anglais
  • Code: exposer le modèle au code lui permet d'apprendre la syntaxe et les schémas des langages de programmation, ce qui améliore sa capacité à générer du code ou à comprendre les questions liées au code.
  • Mathématiques: l'entraînement sur du texte mathématique aide le modèle à apprendre le raisonnement logique, la représentation symbolique et à répondre aux requêtes mathématiques.

La combinaison de ces différentes sources de données est essentielle pour entraîner un modèle de langage puissant capable de gérer une grande variété de tâches et de formats de texte différents.

Prétraitement des données

Voici les principales méthodes de nettoyage et de filtrage des données appliquées aux données d'entraînement:

  • Filtrage des contenus d'abus sexuels sur mineurs: un filtrage rigoureux des contenus d'abus sexuels sur mineurs a été appliqué à plusieurs étapes du processus de préparation des données afin d'exclure les contenus nuisibles et illégaux.
  • Filtrage des données sensibles: pour rendre les modèles pré-entraînés de Gemma sûrs et fiables, des techniques automatisées ont été utilisées pour filtrer certaines informations personnelles et d'autres données sensibles des ensembles d'entraînement.
  • Autres méthodes: filtrage en fonction de la qualité et de la sécurité des contenus, conformément à nos Règles.

Informations d'implémentation

Informations sur les composants internes du modèle.

Matériel

Gemma a été entraînée à l'aide de la dernière génération de matériel TPU (Tensor Processing Unit) (TPUv5e).

L'entraînement de grands modèles de langage nécessite une puissance de calcul importante. Les TPU, conçus spécifiquement pour les opérations matricielles courantes en machine learning, offrent plusieurs avantages dans ce domaine:

  • Performances: les TPU sont spécialement conçus pour gérer les calculs massifs impliqués dans l'entraînement des LLM. Ils peuvent accélérer considérablement l'entraînement par rapport aux processeurs.
  • Mémoire: les TPU sont souvent fournis avec de grandes quantités de mémoire à haut débit, ce qui permet de gérer de grands modèles et de grandes tailles de lots lors de l'entraînement. Cela peut améliorer la qualité du modèle.
  • Évolutivité: les pods TPU (grands clusters de TPU) fournissent une solution évolutive pour gérer la complexité croissante des grands modèles de base. Vous pouvez répartir l'entraînement sur plusieurs appareils TPU pour un traitement plus rapide et plus efficace.
  • Rentabilité: dans de nombreux cas, les TPU peuvent fournir une solution plus rentable pour l'entraînement de grands modèles par rapport à l'infrastructure basée sur un processeur, en particulier en tenant compte du temps et des ressources économisés grâce à un entraînement plus rapide.
  • Ces avantages sont conformes aux engagements de Google en matière de développement durable.

Logiciel

L'entraînement a été effectué à l'aide de JAX et de ML Pathways.

JAX permet aux chercheurs de tirer parti de la dernière génération de matériel, y compris des TPU, pour un entraînement plus rapide et plus efficace de grands modèles.

ML Pathways est le dernier effort de Google visant à créer des systèmes d'intelligence artificielle capables de généraliser sur plusieurs tâches. Cette approche est particulièrement adaptée aux modèles de base, y compris aux grands modèles de langage comme ceux-ci.

Ensemble, JAX et ML Pathways sont utilisés comme décrit dans l'article sur la famille de modèles Gemini. "Le modèle de programmation "single controller" de Jax et Pathways permet à un seul processus Python d'orchestrer l'ensemble de l'exécution d'entraînement, ce qui simplifie considérablement le workflow de développement."

Évaluation

Métriques et résultats d'évaluation du modèle.

Résultats du benchmark

Ces modèles ont été évalués par rapport à un grand nombre d'ensembles de données et de métriques différents pour couvrir différents aspects de la génération de texte:

Benchmark Métrique Gemma PT 2B Gemma PT 7B
MMLU 5-shot, top-1 42.3 64.3
HellaSwag Zero-shot 71,4 81,2
PIQA Zero-shot 77,3 81,2
SocialIQA Zero-shot 49,7 51,8
BoolQ Zero-shot 69,4 83,2
WinoGrande score partiel 65.4 72.3
CommonsenseQA 7-shot 65.3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42.1 53.2
TriviaQA 5 tirs 53.2 63,4
Questions naturelles 5 tirs 12,5 23.0
HumanEval pass@1 22.0 32.3
MBPP 3-shot 29,2 44,4
GSM8K maj@1 17.7 46,4
MATH 4 coups 11.8 24,3
AGIEval 24.2 41,7
BIG-Bench 35.2 55.1
Passable 44,9 56.4

Éthique et sécurité

Approche et résultats de l'évaluation de l'éthique et de la sécurité

Approche d'évaluation

Nos méthodes d'évaluation incluent des évaluations structurées et des tests internes de red teaming sur les règles de contenu pertinentes. La simulation d'attaque a été menée par plusieurs équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaines différents. Ces modèles ont été évalués en fonction d'un certain nombre de catégories différentes liées à l'éthique et à la sécurité, y compris les suivantes:

  • Sécurité du contenu de la conversion de texte en texte: évaluation humaine des requêtes couvrant les règles de sécurité, y compris les abus sexuels et l'exploitation de mineurs, le harcèlement, la violence et le sang, et l'incitation à la haine.
  • Dommages représentationnels de la conversion texte-texte: comparaison avec des ensembles de données universitaires pertinents tels que WinoBias et BBQ Dataset.
  • Mémorisation: évaluation automatisée de la mémorisation des données d'entraînement, y compris le risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
  • Dommages à grande échelle: tests des "capacités dangereuses", telles que les risques chimiques, biologiques, radiologiques et nucléaires (CBRN).

Résultats de l'évaluation

Les résultats des évaluations d'éthique et de sécurité sont conformes aux seuils acceptables pour respecter les Règles internes dans des catégories telles que la sécurité des enfants, la sécurité des contenus, les préjudices représentationnels, la mémorisation et les préjudices à grande échelle. En plus des évaluations internes rigoureuses, les résultats de benchmarks de sécurité bien connus tels que BBQ, BOLD, Winogender, Winobias, RealToxicity et TruthfulQA sont présentés ici.

Gemma 1.0

Benchmark Métrique Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity moyenne 6,86 7,90
GRAS 45,57 49,08
CrowS-Pairs top-1 45,82 51.33
BBQ Ambig 1-shot, top-1 62,58 92,54
BBQ Disambig top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44.84 31,81
Winobias 1_2 56.12 59,09
Winobias 2_2 91.10 92,23
Toxigen 29.77 39,59

Gemma 1.1

Benchmark Métrique Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity moyenne 7,03 8.04
GRAS 47,76
CrowS-Pairs top-1 45,89 49,67
BBQ Ambig 1-shot, top-1 58,97 86,06
BBQ Disambig top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxigen 29,64 38,75

Utilisation et limites

Ces modèles présentent certaines limites que les utilisateurs doivent connaître.

Utilisation prévue

Les grands modèles de langage (LLM) ouverts ont de nombreuses applications dans différents secteurs et domaines. La liste suivante des utilisations potentielles n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont pris en compte lors de l'entraînement et du développement du modèle.

  • Création de contenu et communication
    • Génération de texte: ces modèles peuvent être utilisés pour générer des formats de texte créatifs tels que des poèmes, des scripts, du code, des textes marketing et des brouillons d'e-mails.
    • Chatbots et IA conversationnelle: alimentez les interfaces conversationnelles pour le service client, les assistants virtuels ou les applications interactives.
    • Synthèse de texte: génère des résumés concis d'un corpus de texte, de documents de recherche ou de rapports.
  • Recherche et enseignement
    • Recherche sur le traitement du langage naturel (TLN) : ces modèles peuvent servir de base aux chercheurs pour tester des techniques de TLN, développer des algorithmes et contribuer au développement de ce domaine.
    • Outils d'apprentissage des langues: permettent d'offrir des expériences d'apprentissage des langues interactives, de corriger la grammaire ou de s'entraîner à écrire.
    • Exploration des connaissances: aide les chercheurs à explorer de grands volumes de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Limites

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement ont une influence significative sur les capacités du modèle. Les biais ou les écarts dans les données d'entraînement peuvent entraîner des limites dans les réponses du modèle.
    • La portée de l'ensemble de données d'entraînement détermine les sujets que le modèle peut gérer efficacement.
  • Contexte et complexité de la tâche
    • Les LLM sont plus efficaces pour les tâches qui peuvent être définies à l'aide d'invites et d'instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte fournie (un contexte plus long conduit généralement à de meilleurs résultats, jusqu'à un certain point).
  • Ambiguïté et nuances du langage
    • Le langage naturel est intrinsèquement complexe. Les LLM peuvent avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
  • Précision factuelle
    • Les LLM génèrent des réponses en fonction des informations qu'ils ont apprises à partir de leurs ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Ils peuvent générer des déclarations factuelles incorrectes ou obsolètes.
  • Common Sense
    • Les LLM s'appuient sur des structures statistiques du langage. Il peut lui manquer la capacité d'appliquer un raisonnement de bon sens dans certaines situations.

Considérations éthiques et risques

Le développement de grands modèles de langage (LLM) soulève plusieurs questions éthiques. Pour créer un modèle ouvert, nous avons pris en compte les points suivants:

  • Biais et équité
    • Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter les biais socioculturels intégrés au matériel d'entraînement. Ces modèles ont été examinés avec soin, le prétraitement des données d'entrée a été décrit et les évaluations ultérieures ont été indiquées dans cette fiche.
  • Informations incorrectes et utilisation abusive
    • Les LLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou nuisible.
    • Des consignes sont fournies pour une utilisation responsable du modèle. Consultez le kit IA générative responsable.
  • Transparence et responsabilité :
    • Cette fiche de modèle résume les informations sur l'architecture, les fonctionnalités, les limites et les processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.

Risques identifiés et mesures d'atténuation:

  • Perpétuation des biais: nous vous encourageons à effectuer une surveillance continue (à l'aide de métriques d'évaluation et d'une révision humaine) et à explorer des techniques de débiasage lors de l'entraînement du modèle, du réglage fin et d'autres cas d'utilisation.
  • Génération de contenus nuisibles: des mécanismes et des consignes de sécurité des contenus sont essentiels. Les développeurs sont encouragés à faire preuve de prudence et à mettre en place des mesures de sécurité appropriées pour le contenu en fonction des règles spécifiques de leurs produits et des cas d'utilisation de leurs applications.
  • Usage abusif à des fins malveillantes: les limites techniques et la formation des développeurs et des utilisateurs finaux peuvent aider à limiter les applications malveillantes des LLM. Des ressources pédagogiques et des mécanismes de signalement sont fournis pour permettre aux utilisateurs de signaler les utilisations abusives. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.
  • Non-respect de la confidentialité: les modèles ont été entraînés sur des données filtrées pour supprimer les informations permettant d'identifier personnellement l'utilisateur. Les développeurs sont encouragés à respecter les réglementations sur la confidentialité à l'aide de techniques protégeant la confidentialité.

Avantages

Au moment de la publication, cette famille de modèles fournit des implémentations de grands modèles de langage ouverts hautes performances conçues dès le départ pour le développement d'une IA responsable, par rapport aux modèles de taille similaire.

En utilisant les métriques d'évaluation de référence décrites dans ce document, ces modèles ont démontré des performances supérieures à celles d'autres alternatives de modèles ouverts de taille comparable.