Fiche modèle Gemma

Page du modèle: Gemma

Ressources et documentation technique:

Conditions d'utilisation: Conditions

Auteurs: Google

Infos sur le modèle

Description récapitulative et brève définition des entrées et des sorties.

Description

Gemma est une famille de modèles ouverts légers et avancés de Google, élaborés à partir des mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini. Ce sont de grands modèles de langage texte-vers-texte uniquement avec décodeur, disponibles en anglais, avec des pondérations ouvertes, des variantes pré-entraînées et des variantes réglées pour les instructions. Les modèles Gemma sont adaptés à diverses tâches de génération de texte, y compris la réponse à des questions, la synthèse et le raisonnement. Leur taille relativement petite permet de les déployer dans des environnements disposant de ressources limitées, comme un ordinateur portable, un ordinateur de bureau ou votre propre infrastructure cloud, ce qui démocratise l'accès aux modèles d'IA de pointe et favorise l'innovation pour tous.

Entrées et sorties

  • Entrée:chaîne de texte, telle qu'une question, une invite ou un document à résumer.
  • Résultat:texte en anglais généré en réponse à une entrée, comme une réponse à une question ou le résumé d'un document.

Citation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Données du modèle

Données utilisées pour l'entraînement du modèle et le traitement des données.

Ensemble de données d'entraînement

Ces modèles ont été entraînés sur un ensemble de données de données textuelles comprenant une grande variété de sources, pour un total de 6 000 milliards de jetons. Voici les principaux composants:

  • Documents Web: une collection diversifiée de textes Web garantit que le modèle est exposé à un large éventail de styles linguistiques, de sujets et de vocabulaire. Du contenu principalement en anglais.
  • Code: l'exposition du modèle au code l'aide à apprendre la syntaxe et les modèles des langages de programmation, ce qui améliore sa capacité à générer du code ou à comprendre les questions liées au code.
  • Mathématiques: l'entraînement sur un texte mathématique permet au modèle d'apprendre le raisonnement logique et la représentation symbolique, et de traiter les requêtes mathématiques.

La combinaison de ces diverses sources de données est essentielle pour entraîner un modèle de langage puissant capable de gérer une grande variété de tâches et de formats de texte.

Prétraitement des données

Voici les principales méthodes de nettoyage et de filtrage des données appliquées aux données d'entraînement:

  • Filtrage des contenus d'abus sexuels sur mineurs: nous avons appliqué un filtrage strict sur les contenus d'abus sexuels sur mineurs à plusieurs étapes du processus de préparation des données afin d'exclure les contenus nuisibles et illégaux.
  • Filtrage des données sensibles: dans le cadre de la sécurité et de la fiabilité des modèles pré-entraînés de Gemma, des techniques automatisées ont été utilisées pour filtrer certaines informations personnelles et d'autres données sensibles des ensembles d'entraînement.
  • Méthodes supplémentaires: filtrage basé sur la qualité et la sécurité du contenu, conformément à nos Règles.

Informations sur l'implémentation

Détails concernant les composants internes du modèle.

Matériel

Gemma a été entraîné à l'aide de la dernière génération de matériel TPU (Tensor Processing Unit) (TPUv5e).

L'entraînement de grands modèles de langage nécessite une puissance de calcul importante. Conçus spécifiquement pour les opérations matricielles courantes dans le machine learning, les TPU offrent plusieurs avantages dans ce domaine:

  • Performances: les TPU sont spécialement conçus pour gérer les calculs massives liés à l'entraînement des LLM. Ils peuvent accélérer l'entraînement considérablement par rapport aux processeurs.
  • Mémoire: les TPU sont souvent fournis avec de grandes quantités de mémoire à haut débit, ce qui permet de traiter des modèles et des tailles de lot volumineux pendant l'entraînement. Le modèle peut ainsi être de meilleure qualité.
  • Évolutivité: les pods TPU (grands clusters de TPU) offrent une solution évolutive pour gérer la complexité croissante des grands modèles de fondation. Vous pouvez répartir l'entraînement sur plusieurs appareils TPU pour un traitement plus rapide et plus efficace.
  • Rentabilité: dans de nombreux scénarios, les TPU peuvent offrir une solution plus économique pour l'entraînement de modèles volumineux qu'une infrastructure basée sur un processeur, en particulier si l'on tient compte du temps et des ressources économisés grâce à l'accélération de l'entraînement.
  • Ces avantages sont conformes aux engagements de Google en faveur d'un fonctionnement durable.

Logiciels

L'entraînement a été effectué à l'aide de JAX et de ML Pathways.

JAX permet aux chercheurs d'exploiter la dernière génération de matériel, y compris les TPU, pour entraîner plus rapidement et plus efficacement des modèles volumineux.

ML Pathways est la dernière initiative de Google visant à créer des systèmes artificiellement intelligents capables de généraliser sur plusieurs tâches. Cela convient particulièrement aux modèles de fondation, y compris aux grands modèles de langage tels que ceux-ci.

Ensemble, les parcours JAX et ML sont utilisés comme décrit dans l'article sur la famille de modèles Gemini. "Le modèle de programmation "contrôleur unique" de Jax et Pathways de Java permet d'orchestrer l'ensemble du cycle d'entraînement d'un processus Python unique, ce qui simplifie considérablement le workflow de développement."

Évaluation

Métriques et résultats d'évaluation du modèle

Résultats de l'analyse comparative

Ces modèles ont été évalués sur une vaste collection d'ensembles de données et de métriques différents pour couvrir différents aspects de la génération de texte:

Benchmark Métrique Gemma PT 2B Gemma PT 7B
MMLU 5 plans, top-1 42.3 64,3
HellaSwag 0 shot 71,4 81,2
PIQA 0 shot 77,3 81,2
SocialIQA 0 shot 49,7 51,8
BoolQ 0 shot 69,4 83,2
WinoGrande score partiel 65,4 72,3
CommonsenseQA 7 plans 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42,1 53.2
TriviaQA 5 plans 53.2 63,4
Questions naturelles 5 plans 12,5 23.0
HumanEval carte@1 22.0 32,3
PPM Trois plans 29,2 44,4
GSM8K maj@1 17.7 46,4
MATH 4 plans 11.8 24,3
AGIEval 24,2 41,7
BIG Bench 35,2 55.1
Passable 44,9 56,4

Éthique et sécurité

Approche et résultats de l'évaluation éthique et de sécurité

Approche d'évaluation

Nos méthodes d'évaluation incluent des évaluations structurées et des tests internes de simulation des règles relatives au contenu applicables. La Red Team a été menée par plusieurs équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaines différents. Ces modèles ont été évalués selon différentes catégories en rapport avec l'éthique et la sécurité, parmi lesquelles:

  • Sécurité du contenu texte-vers-texte: évaluation humaine sur les requêtes liées aux règles de sécurité, y compris les abus sexuels et l'exploitation d'enfants, le harcèlement, la violence, le sang et l'incitation à la haine.
  • Dommages liés à la représentation de texte en texte: effectuez une analyse comparative par rapport à des ensembles de données universitaires pertinents, tels que WinoBias et BBQ Dataset.
  • Mémorisation: évaluation automatisée de la mémorisation des données d'entraînement, y compris le risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
  • Préjudice à grande échelle: tests visant à détecter les "capacités dangereuses", telles que les risques chimiques, biologiques, radiologiques et nucléaires (CBRN).

Résultats de l'évaluation

Les résultats des évaluations éthiques et de sécurité se situent dans des seuils acceptables pour respecter les règles internes pour des catégories telles que la sécurité des enfants, la sécurité des contenus, les préjudices de représentation, la mémorisation et les préjudices à grande échelle. En plus d'évaluations internes fiables, nous présentons ici les résultats d'analyses comparatives de sécurité bien connues telles que barbecue, BOLD, Winogender, Winobias, RealToxicity et TruthfulQA.

Gemma 1.0

Benchmark Métrique Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity moyenne 6,86 7,90
GRAS 45,57 49,08
Paires corbeaux top-1 45,82 51,33
BBQ Ambig 1 shot, top-1 62,58 92,54
Mise au point sur un barbecue top-1 54,62 71,99
Winogenre top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toxique 29.77 39,59

Gemma 1.1

Benchmark Métrique Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity moyenne 7,03 8,04
GRAS 47,76
Paires corbeaux top-1 45,89 49,67
BBQ Ambig 1 shot, top-1 58,97 86,06
Mise au point sur un barbecue top-1 53,90 85,08
Winogenre top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxique 29,64 38,75

Utilisation et limites

Ces modèles présentent certaines limites dont les utilisateurs doivent être conscients.

Utilisation prévue

Les grands modèles de langage ouverts (LLM, Open Large Language Model) bénéficient d'un large éventail d'applications dans divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont envisagés pour l'entraînement et le développement du modèle.

  • Création et communication de contenus
    • Génération de texte: ces modèles peuvent être utilisés pour générer des formats textuels créatifs tels que des poèmes, des scripts, du code, des textes marketing et des brouillons d'e-mails.
    • Chatbots et IA conversationnelle: alimentez des interfaces de conversation pour le service client, les assistants virtuels ou les applications interactives.
    • Synthèse de texte: générez des résumés concis d'un corpus de textes, d'articles de recherche ou de rapports.
  • Recherche et enseignement
    • Recherche sur le traitement du langage naturel (TLN) : ces modèles peuvent servir de base aux chercheurs pour expérimenter les techniques de TLN, développer des algorithmes et contribuer au progrès dans ce domaine.
    • Outils d'apprentissage des langues: soutiennent des expériences d'apprentissage interactif, aide à la correction grammaticale ou s'exerce à l'écriture.
    • Exploration des connaissances: aidez les chercheurs à explorer de grands volumes de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Limites

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement influencent de manière significative les capacités du modèle. Des biais ou des écarts dans les données d'entraînement peuvent limiter les réponses du modèle.
    • Le champ d'application de l'ensemble de données d'entraînement détermine les thèmes que le modèle peut traiter efficacement.
  • Contexte et complexité de la tâche
    • Les LLM sont plus efficaces pour les tâches qui peuvent être formulées avec des invites et des instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte fourni (un contexte plus long permet généralement d'obtenir de meilleurs résultats, jusqu'à un certain point).
  • Ambiguïté et nuances de la langue
    • Le langage naturel est intrinsèquement complexe. Les LLM ont parfois du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
  • Précision factuelle
    • Les LLM génèrent des réponses en fonction des informations qu'ils ont apprises dans les ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes.
  • Bon sens
    • Les LLM s'appuient sur des modèles statistiques dans le langage. Ils peuvent ne pas être en mesure d’appliquer un raisonnement de bon sens dans certaines situations.

Considérations et risques éthiques

Le développement de grands modèles de langage (LLM) soulève plusieurs questions éthiques. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:

  • Biais et équité
    • Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter des biais socioculturels intégrés au support de formation. Ces modèles ont fait l'objet d'un examen minutieux, le prétraitement des données d'entrée est décrit et les évaluations postérieures sont mentionnées dans cette fiche.
  • Informations incorrectes et usage abusif
    • Les LLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou dangereux.
    • Ces consignes sont fournies pour une utilisation responsable avec le modèle. Consultez le kit d'IA générative responsable.
  • Transparence et responsabilité :
    • Cette fiche de modèle résume les détails de l'architecture, des capacités, des limites et des processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs de l'écosystème d'IA.

Risques identifiés et mesures d'atténuation:

  • Perpétuation des biais: il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examen manuel) et d'explorer les techniques de suppression des biais lors de l'entraînement du modèle, de l'ajustement et d'autres cas d'utilisation.
  • Génération de contenus nuisibles: il est essentiel de mettre en place des mécanismes et des consignes pour la sécurité des contenus. Nous encourageons les développeurs à faire preuve de prudence et à mettre en œuvre des mesures de sécurité du contenu appropriées en fonction des règles spécifiques à leurs produits et des cas d'utilisation de leurs applications.
  • Usage abusif à des fins malveillantes: les limites techniques et la formation des développeurs et des utilisateurs finaux peuvent aider à limiter les applications malveillantes de LLM. Des ressources pédagogiques et des mécanismes de signalement permettent aux utilisateurs de signaler les utilisations abusives. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.
  • Non-respect de la confidentialité: les modèles ont été entraînés sur des données filtrées pour supprimer les informations permettant d'identifier personnellement l'utilisateur. Les développeurs sont encouragés à respecter les réglementations sur la confidentialité avec des techniques protégeant la confidentialité.

Avantages

Au moment de sa sortie, cette famille de modèles fournit des implémentations de grands modèles de langage ouverts hautes performances conçues dès le départ pour le développement d'une IA responsable, par rapport à des modèles de tailles similaires.

Selon les métriques d'évaluation des benchmarks décrites dans ce document, ces modèles offrent des performances supérieures à celles d'autres modèles ouverts de taille comparable.