Fiche modèle Gemma 2

Page du modèle: Gemma

Ressources et documentation technique:

Conditions d'utilisation: Conditions

Auteurs: Google

Infos sur le modèle

Résumé et définition des entrées et des sorties.

Description

Gemma est une famille de modèles ouverts légers et de pointe de Google, qui ont été élaborés à partir des recherches et des technologies utilisées pour créer les modèles Gemini. Il s'agit de grands modèles de langage texte-vers-texte basés uniquement sur un décodeur, disponibles en anglais, avec des pondérations ouvertes pour les variantes pré-entraînées et celles ajustées avec les instructions. Les modèles Gemma sont adaptés à diverses tâches de génération de texte, telles que les réponses à des questions, la synthèse et le raisonnement. Leur taille relativement petite permet de les déployer dans des environnements avec des ressources limitées, tels qu'un ordinateur portable, un ordinateur de bureau ou votre propre infrastructure cloud, démocratisant l'accès à des modèles d'IA de pointe et contribuant à favoriser l'innovation pour tous.

Entrées et sorties

  • Entrée:chaîne de texte, telle qu'une question, une requête ou un document à résumer.
  • Résultat:texte généré en anglais en réponse à la saisie, comme une réponse à une question ou un résumé d'un document.

Citation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Données du modèle

Données utilisées pour l'entraînement du modèle et leur traitement.

Ensemble de données d'entraînement

Ces modèles ont été entraînés sur un ensemble de données de données textuelles comprenant une grande variété de sources. Le modèle 27B a été entraîné avec 13 000 milliards de jetons et le modèle 9B avec 8 000 milliards de jetons. Voici les principaux composants:

  • Documents Web: une collection variée de textes Web garantit que le modèle est exposé à un large éventail de styles linguistiques, de sujets et de vocabulaire. Principalement du contenu en anglais.
  • Code: l'exposition du modèle au code lui permet d'apprendre la syntaxe et les modèles des langages de programmation, ce qui améliore sa capacité à générer du code ou à comprendre les questions liées au code.
  • Mathématiques: l'entraînement sur du texte mathématique permet au modèle d'apprendre le raisonnement logique et les représentations symboliques, et de répondre à des requêtes mathématiques.

La combinaison de ces diverses sources de données est essentielle pour entraîner un modèle de langage performant capable de gérer une grande variété de tâches et de formats de texte différents.

Prétraitement des données

Voici les principales méthodes de nettoyage et de filtrage des données appliquées aux données d'entraînement:

  • Filtrage des contenus d'abus sexuels sur mineurs: un filtrage rigoureux des contenus d'abus sexuels sur mineurs a été appliqué à plusieurs étapes du processus de préparation des données afin d'exclure les contenus nuisibles et illégaux.
  • Filtrage des données sensibles: pour garantir la sécurité et la fiabilité des modèles pré-entraînés de Gemma, des techniques automatisées ont été utilisées afin de filtrer certaines informations personnelles et d'autres données sensibles des ensembles d'entraînement.
  • Méthodes supplémentaires: filtrage en fonction de la qualité et de la sécurité du contenu, conformément à nos Règles.

Informations sur l'implémentation

Détails concernant les composants internes du modèle.

Matériel

Gemma a été entraînée à l'aide de la dernière génération de matériel TPU (Tensor Processing Unit) (TPUv5p).

L'entraînement de grands modèles de langage nécessite une puissance de calcul importante. Conçus spécifiquement pour les opérations matricielles courantes en machine learning, les TPU offrent plusieurs avantages dans ce domaine:

  • Performances: les TPU sont spécifiquement conçus pour gérer les calculs massifs impliqués dans l'entraînement des LLM. Ils peuvent accélérer considérablement l'entraînement par rapport aux processeurs.
  • Mémoire: les TPU disposent souvent d'une grande quantité de mémoire à large bande passante, ce qui permet de gérer des modèles et des tailles de lots volumineux pendant l'entraînement. Cela peut améliorer la qualité du modèle.
  • Évolutivité: les pods TPU (grands clusters de TPU) constituent une solution évolutive pour gérer la complexité croissante des modèles de fondation volumineux. Vous pouvez répartir l'entraînement sur plusieurs appareils TPU pour un traitement plus rapide et plus efficace.
  • Rentabilité: dans de nombreux scénarios, les TPU peuvent constituer une solution plus économique pour l'entraînement de modèles volumineux qu'une infrastructure basée sur le processeur, en particulier si l'on tient compte du temps et des ressources économisés grâce à un entraînement plus rapide.
  • Ces avantages sont conformes aux engagements de Google en faveur du développement durable.

Logiciels

L'entraînement a été effectué à l'aide de JAX et de ML Pathways.

JAX permet aux chercheurs de tirer parti de la dernière génération de matériel, y compris les TPU, pour entraîner plus rapidement et plus efficacement des modèles volumineux.

ML Pathways est la dernière initiative de Google visant à créer des systèmes artificiellement intelligents capables de généraliser sur plusieurs tâches. Elle est particulièrement adaptée aux modèles de fondation, y compris aux grands modèles de langage comme ceux-ci.

Ensemble, les chemins JAX et ML sont utilisés comme décrit dans l'article sur la famille de modèles Gemini. "Le modèle de programmation "contrôleur unique" de Jax et Pathways permet à un seul processus Python d'orchestrer l'ensemble de l'entraînement, simplifiant ainsi considérablement le workflow de développement."

Évaluation

Métriques et résultats d'évaluation du modèle

Résultats du benchmark

Ces modèles ont été évalués par rapport à une grande collection d'ensembles de données et de métriques différents afin de couvrir différents aspects de la génération de texte:

Benchmark Métrique Gemma PT 9B Gemma PT 27B
MMLU 5 shots, top-1 71,3 75,2
HellaSwag 10 shots 81,9 86,4
PIQA 0 shot 81,7 83,2
SocialIQA 0 shot 53,4 53,7
BoolQ 0 shot 84,2 84,8
WinoGrande score partiel 80,6 83,7
ARC-e 0 shot 88,0 88,6
ARC-c 25 shots 68,4 71,4
TriviaQA 5 shots 76,6 83,7
Questions naturelles 5 shots 29,2 34,5
HumanEval pass@1 40,2 51,8
MBPP 3 shots 52,4 62,6
GSM8K 5-shot, maj@1 68,6 74,0
MATH 4 prises 36,6 42.3
AGIEval 3 à 5 shots 52,8 55.1
BIG-Bench 3-shot, CoT 68.2 74.9

Éthique et sécurité

Approche et résultats de l'évaluation éthique et de la sécurité

Approche d'évaluation

Nos méthodes d'évaluation comprennent des évaluations structurées et des tests internes avec Red Teaming, portant sur les règles de contenu applicables. Cette opération a été menée par un certain nombre d'équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaine différents. Ces modèles ont été évalués par rapport à différentes catégories pertinentes en termes d'éthique et de sécurité, dont les suivantes:

  • Sécurité du contenu texte-vers-texte: évaluation humaine sur les requêtes couvrant les règles de sécurité, y compris les abus sexuels sur mineurs et l'exploitation de mineurs, le harcèlement, la violence et le contenu sanglant, et l'incitation à la haine.
  • Dommages représentatifs au texte-vers-texte: effectuez des analyses comparatives par rapport à des ensembles de données universitaires pertinents tels que WinoBias et Ensemble de données Barbecue.
  • Mémorisation: évaluation automatisée de la mémorisation des données d'entraînement, y compris du risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
  • Préjudice à grande échelle: tests de "capacités dangereuses", telles que les risques chimiques, biologiques, radiologiques et nucléaires (CBRN).

Résultats de l'évaluation

Les résultats des évaluations éthiques et de sécurité sont dans les seuils acceptables pour respecter les règles internes concernant des catégories telles que la sécurité des enfants, la sécurité des contenus, les préjudices de représentation, la mémorisation et les préjudices à grande échelle. En plus d'évaluations internes robustes, les résultats de benchmarks de sécurité bien connus tels que barbecue, BOLD, Winogender, Winobias, RealToxicity et TruthfulQA sont présentés ici.

Gemma 2.0

Benchmark Métrique Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity moyenne 8,25 8,84
Crows-Pairs top-1 37,47 36,67
Barbecue Ambig 1 shot, top-1 88,58 85,99
Désambiguïté d'un barbecue top-1 82,67 86,94
Winogenre top-1 79,17 77,22
TruthfulQA 50,27 51,60
Winobias 1_2 78,09 81,94
Winobias 2_2 95,32 97,22
Toxigène 39,30 38,42

Utilisation et limites

Ces modèles comportent certaines limites que les utilisateurs doivent connaître.

Utilisation prévue

Les grands modèles de langage (LLM) ouverts ont un large éventail d'applications dans divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles dont les créateurs de modèles ont pris en compte lors de l'entraînement et du développement du modèle.

  • Création de contenu et communication
    • Génération de texte: ces modèles permettent de générer des formats de texte créatifs tels que des poèmes, des scripts, du code, du contenu marketing et des brouillons d'e-mails.
    • Chatbots et IA conversationnelle: alimentez des interfaces de conversation pour le service client, les assistants virtuels ou les applications interactives.
    • Synthèse de texte: générez des résumés concis d'un corpus de textes, d'articles de recherche ou de rapports.
  • Recherche et enseignement
    • Recherche sur le traitement du langage naturel (TLN) : ces modèles peuvent servir de base aux chercheurs qui souhaitent expérimenter des techniques de TLN, développer des algorithmes et contribuer aux avancées du domaine.
    • Outils d'apprentissage des langues: proposez des expériences d'apprentissage interactif des langues, facilitant la correction grammaticale ou s'entraînant à écrire.
    • Exploration des connaissances: aidez les chercheurs à explorer de grands volumes de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Limites

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement influencent de manière significative les capacités du modèle. Les biais ou les écarts dans les données d'entraînement peuvent entraîner des limites dans les réponses du modèle.
    • Le champ d'application de l'ensemble de données d'entraînement détermine les domaines que le modèle peut gérer efficacement.
  • Contexte et complexité de la tâche
    • Les LLM sont plus performants pour les tâches qui peuvent être encadrées par des requêtes et des instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte fourni (un contexte plus long conduit généralement à de meilleurs résultats, jusqu'à un certain point).
  • Ambiguïté et nuances du langage
    • Le langage naturel est complexe par nature. Les LLM ont parfois du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
  • Précision factuelle
    • Les LLM génèrent des réponses sur la base des informations qu'ils ont apprises à partir de leurs ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes.
  • Bon sens
    • Les LLM s'appuient sur des modèles statistiques liés au langage. Dans certaines situations, elles peuvent ne pas être capables d'appliquer un raisonnement de bon sens.

Considérations et risques éthiques

Le développement des grands modèles de langage (LLM) soulève plusieurs problèmes éthiques. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:

  • Biais et équité
    • Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter les biais socioculturels intégrés dans les supports de formation. Ces modèles ont fait l'objet d'un examen approfondi, d'une description du prétraitement des données d'entrée et d'évaluations ultérieures présentées dans cette fiche.
  • Désinformation et usage abusif
    • Les LLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou nuisible.
    • Des consignes sont fournies pour une utilisation responsable avec le modèle. Consultez le kit d'IA générative responsable.
  • Transparence et responsabilité :
    • Cette fiche de modèle résume les détails de l'architecture, des fonctionnalités, des limites et des processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs dans l'écosystème d'IA.

Risques identifiés et atténuation:

  • Perpétuation des biais: il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examen manuel) et d'explorer les techniques de suppression des biais lors de l'entraînement du modèle, de l'ajustement et d'autres cas d'utilisation.
  • Génération de contenus nuisibles: des mécanismes et des consignes concernant la sécurité du contenu sont essentiels. Les développeurs sont encouragés à faire preuve de prudence et à mettre en place des mesures de sécurité appropriées pour la sécurité du contenu, en fonction des règles spécifiques à leurs produits et des cas d'utilisation de leurs applications.
  • Usage abusif à des fins malveillantes: les limites techniques ainsi que la sensibilisation des développeurs et des utilisateurs finaux peuvent aider à limiter les applications malveillantes des LLM. Des ressources pédagogiques et des mécanismes de signalement permettant aux utilisateurs de signaler les usages abusifs sont fournis. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.
  • Violations de la confidentialité: les modèles ont été entraînés sur des données filtrées afin de supprimer les informations permettant d'identifier personnellement l'utilisateur. Nous encourageons les développeurs à respecter les réglementations sur la confidentialité avec des techniques protégeant la confidentialité.

Avantages

Au moment de sa publication, cette famille de modèles fournit des implémentations de grands modèles de langage ouverts et hautes performances, conçues dès le départ pour le développement d'IA responsable, par rapport à des modèles de taille similaire.

En s'appuyant sur les métriques d'évaluation des benchmarks décrites dans ce document, ces modèles offrent de meilleures performances que d'autres alternatives de modèles ouverts de taille comparable.