Fiche modèle Gemma 2

Page du modèle: Gemma

Ressources et documentation technique:

Conditions d'utilisation: Conditions

Auteurs: Google

Infos sur le modèle

Résumé et définition des entrées et des sorties.

Description

Gemma est une famille de modèles ouverts, légers et de pointe, conçus par Google, développé à partir des recherches et technologies utilisées pour créer les modèles Gemini. Ce sont de grands modèles de langage texte-vers-texte basés uniquement sur un décodeur, disponibles en anglais, avec des pondérations ouvertes aussi bien pour les variantes pré-entraînées que pour celles qui ont été ajustées avec les instructions. Les modèles Gemma sont adaptés à diverses tâches de génération de texte, y compris la synthèse et le raisonnement. Leur taille relativement petite permet de les déployer dans des environnements avec des ressources limitées, un ordinateur portable, un ordinateur de bureau ou votre propre infrastructure cloud, ce qui démocratise l'accès des modèles d'IA de pointe et favorisent l'innovation pour tous.

Entrées et sorties

  • Entrée:chaîne de texte telle qu'une question, une requête ou un document résumé.
  • Résultat:texte généré en anglais en réponse à l'entrée, tel que comme réponse à une question ou comme résumé d'un document.

Citation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Données du modèle

Données utilisées pour l'entraînement du modèle et leur traitement.

Ensemble de données d'entraînement

Ces modèles ont été entraînés sur un ensemble de données de données textuelles comprenant de sources. Le modèle 27B a été entraîné avec 13 000 milliards de jetons, tandis que le modèle 9B entraîné avec 8 000 milliards de jetons, et 2 milliards de modèles avec 2 000 milliards de jetons. Voici les principaux composants:

  • Documents Web: une collection variée de texte Web garantit que le modèle est exposé. à un large éventail de styles linguistiques, de sujets et de vocabulaire. Principalement Contenu en anglais
  • Code: le fait d'exposer le modèle au code permet d'apprendre la syntaxe et les modèles de programmation, ce qui améliore sa capacité à générer du code ou comprendre les questions liées au code.
  • Mathématiques: l'entraînement sur du texte mathématique permet au modèle d'apprendre la logique. le raisonnement, la représentation symbolique et pour répondre à des requêtes mathématiques.

La combinaison de ces diverses sources de données est essentielle pour entraîner capable de gérer une grande variété de tâches et de textes .

Prétraitement des données

Voici les principales méthodes de nettoyage et de filtrage des données appliquées à l'entraînement données:

  • Filtrage des contenus d'abus sexuels sur mineurs: le filtrage rigoureux des contenus d'abus sexuels sur mineurs était appliquée à plusieurs étapes du processus de préparation des données afin de garantir l'exclusion des contenus nuisibles et illégaux.
  • Filtrage des données sensibles: pour rendre les modèles pré-entraînés de Gemma sûrs et des techniques fiables et automatisées ont été utilisées pour filtrer et d'autres données sensibles provenant d'ensembles d'entraînement.
  • Méthodes supplémentaires: filtrage en fonction de la qualité et de la sécurité du contenu conformément à nos Règles.

Informations sur l'implémentation

Détails concernant les composants internes du modèle.

Matériel

Gemma a été entraînée à l'aide de la dernière génération Matériel Tensor Processing Unit (TPU) (TPUv5p).

L'entraînement de grands modèles de langage nécessite une puissance de calcul importante. TPU, spécialement conçu pour les opérations matricielles courantes en machine learning, plusieurs avantages dans ce domaine:

  • Performances: les TPU sont spécialement conçus pour gérer des calculs massifs impliqués dans l'entraînement des LLM. Elles peuvent accélérer considérablement l'entraînement CPU
  • Mémoire: les TPU disposent souvent d'une grande quantité de mémoire à large bande passante, ce qui permet pour gérer les grands modèles et les lots pendant l'entraînement. Cela peut d'améliorer la qualité du modèle.
  • Évolutivité: les pods TPU (grands clusters de TPU) constituent une solution évolutive pour pour gérer la complexité croissante des grands modèles de fondation. Vous pouvez distribuer l'entraînement sur plusieurs appareils TPU pour un traitement plus rapide et plus efficace.
  • Rentabilité: dans de nombreux cas, les TPU offrent un gain de performances qui permet d'entraîner des modèles volumineux par rapport à une infrastructure basée sur CPU, surtout si l'on tient compte du temps et des ressources économisés grâce à la rapidité de machine learning.
  • Ces avantages sont adaptés Les engagements de Google pour un fonctionnement durable.

Logiciel

L'entraînement a été effectué à l'aide de JAX et de ML Pathways.

JAX permet aux chercheurs de tirer parti de la dernière génération de matériel, y compris les TPU, pour un entraînement plus rapide et plus efficace des grands modèles.

ML Pathways est la dernière initiative de Google visant à créer des systèmes artificiellement intelligents capable de généraliser sur plusieurs tâches. Ceci est particulièrement adapté aux modèles de fondation, y compris de grands modèles de langage comme ceux-ci.

Ensemble, les parcours JAX et ML sont utilisés comme décrit dans le article sur la famille de modèles Gemini ; "le 'single manette de programmation de Jax et Pathways permet de créer pour orchestrer l'ensemble de l'entraînement, ce qui simplifie considérablement le workflow de développement logiciel."

Évaluation

Métriques et résultats d'évaluation du modèle

Résultats du benchmark

Ces modèles ont été évalués par rapport à une vaste collection d'ensembles de données différents et pour couvrir différents aspects de la génération de texte:

Benchmark Métrique Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 shots, top-1 51,3 71,3 75,2
HellaSwag 10 shots 73,0 81,9 86,4
PIQA 0 shot 77,8 81,7 83,2
SocialIQA 0 shot 51,9 53,4 53,7
BoolQ 0 shot 72,5 84,2 84,8
WinoGrande score partiel 70,9 80,6 83,7
ARC-e 0 shot 80,1 88,0 88,6
ARC-c 25 shots 55,4 68,4 71,4
TriviaQA 5 shots 59,4 76,6 83,7
Questions naturelles 5 shots 16,7 29,2 34,5
HumanEval pass@1 17.7 40,2 51,8
MBPP 3 shots 29,6 52,4 62,6
GSM8K 5-shot, maj@1 23,9 68,6 74,0
MATH 4 prises 15,0 36,6 42.3
AGIEval 3 à 5 shots 30,6 52,8 55.1
DROP 3-shot, F1 52,0 69,4 72.2
BIG-Bench 3-shot, CoT 41.9 68.2 74.9

Éthique et sécurité

Approche et résultats de l'évaluation éthique et de la sécurité

Approche d'évaluation

Nos méthodes d'évaluation incluent les évaluations structurées et le Red-teaming interne en testant les règles relatives au contenu applicables. La Red Teaming a été menée par un certain nombre de différentes équipes, chacune avec des objectifs et des métriques d'évaluation humaine différents. Ces modèles ont été évalués par rapport à un certain nombre de catégories différentes l'éthique et la sécurité, y compris:

  • Sécurité du contenu texte-vers-texte: évaluation humaine des requêtes portant sur la sécurité Règles en matière d'abus sexuels sur mineurs, d'exploitation de mineurs, de harcèlement et de violence et l'incitation à la haine.
  • Préjugés représentatifs du texte-vers-texte: comparaison avec des données académiques pertinentes tels que WinoBias et BBQ Dataset.
  • Mémorisation: évaluation automatisée de la mémorisation des données d'entraînement, y compris le risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
  • Préjudice à grande échelle: teste des "fonctionnalités dangereuses", telles que les données chimiques, les risques biologiques, radiologiques et nucléaires (CBRN)

Résultats de l'évaluation

Les résultats des évaluations éthiques et de sécurité sont dans la limite des seuils acceptables pour respecter les règles internes de catégories telles que les enfants sécurité, sécurité du contenu, préjudices de représentation, mémorisation, préjudices à grande échelle. En plus d'évaluations internes rigoureuses, les résultats des benchmarks tels que barbecue, BOLD, Winogender, Winobias, RealToxicity et TruthfulQA. sont affichées ici.

Gemma 2.0

Benchmark Métrique Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity moyenne 8,16 8,25 8,84
Crows-Pairs top-1 37,67 37,47 36,67
Barbecue Ambig 1 shot, top-1 83,20 88,58 85,99
Désambiguïté d'un barbecue top-1 69,31 82,67 86,94
Winogenre top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Évaluations des fonctionnalités dangereuses

Approche d'évaluation

Nous avons évalué diverses capacités dangereuses:

  • Cybersécurité choquante:pour évaluer le potentiel d'usage abusif du modèle contextes de cybersécurité, nous avons utilisé à la fois Les plateformes Capture-the-Flag (CTF) comme InterCode-CTF et Hack the Box, comme et développé en interne les défis liés aux fichiers CTF. Ces évaluations mesurent d'exploiter les vulnérabilités et d'obtenir un accès non autorisé dans des environnements simulés.
  • Autoprolifération:nous avons évalué la capacité du modèle à l'autoprolifération en concevant des tâches qui impliquent l'acquisition de ressources, l’exécution et l’interaction avec les systèmes distants. Ces évaluations évaluent la capacité du modèle à se répliquer et à se propager indépendamment.
  • Persuasion:évaluer la capacité de persuasion du modèle nous avons mené des études sur la persuasion humaine. Ces études impliquaient de scénarios qui mesurent la capacité du modèle à établir des relations, à influencer croyances et susciter des actions spécifiques de la part de participants humains.

Résultats de l'évaluation

Toutes les évaluations sont décrites en détail Évaluer les fonctionnalités dangereuses des modèles Frontier En bref, Rapport technique Gemma 2

Évaluation Capacité Gemma 2 IT 27B
InterCode-CTF Cybersécurité choquante Défis 34 h/24, 7 j/7
CTF interne Cybersécurité choquante Défis du 13 janvier
Hack the Box Cybersécurité choquante Défis 0/13
Alerte précoce en matière d'autoprolifération Auto-prolifération Défis de 1/10
Charme choquant Persuasion Pourcentage de participants qui acceptent: 81% intéressants, 75% des personnes interrogées parleraient de nouveau, 80% ont établi des liens personnels
Cliquez sur "Liens". Persuasion 34% des participants
Rechercher des informations Persuasion 9% des participants
Exécuter le code Persuasion 11% des participants
Échanges financiers Persuasion 3,72 £ de don moyen
Toile de mensonges Persuasion 18% d'évolution en moyenne vers des croyances correctes, 1% vers une transition en moyenne croyance incorrecte

Utilisation et limites

Ces modèles comportent certaines limites que les utilisateurs doivent connaître.

Utilisation prévue

Les grands modèles de langage ouverts (LLM) ont un large éventail d'applications dans divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas complètes. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles envisagés par les créateurs du modèle dans le cadre du modèle la formation et le développement.

  • Création de contenu et communication <ph type="x-smartling-placeholder">
      </ph>
    • Génération de texte: ces modèles permettent de générer des formats de texte pour les créations. tels que des poèmes, des scripts, du code, des textes marketing et des brouillons d'e-mails.
    • Chatbots et IA conversationnelle: des interfaces de conversation optimisées pour les clients des assistants virtuels ou des applications interactives.
    • Synthèse de texte: générez des résumés concis d'un corpus de textes, d'une recherche des articles ou des rapports.
  • Recherche et enseignement <ph type="x-smartling-placeholder">
      </ph>
    • Recherche sur le traitement du langage naturel (TLN) : ces modèles peuvent servir de base permettant aux chercheurs d'expérimenter les techniques de TLN, de développer et les algorithmes, et contribuent aux avancées dans ce domaine.
    • Outils d'apprentissage linguistique: favorisez des expériences d'apprentissage des langues interactives d'aider à corriger la grammaire ou à s'entraîner à l'écriture.
    • Exploration des connaissances: aidez les chercheurs à explorer de grands volumes de texte. en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Limites

  • Données d'entraînement <ph type="x-smartling-placeholder">
      </ph>
    • La qualité et la diversité des données d'entraînement ont un impact significatif les capacités du modèle. Les biais ou les écarts dans les données d'entraînement peuvent entraîner les limites des réponses du modèle.
    • Le champ d'application de l'ensemble de données d'entraînement détermine les domaines que le modèle peut gérer efficacement.
  • Contexte et complexité de la tâche <ph type="x-smartling-placeholder">
      </ph>
    • Les LLM sont plus performants pour les tâches qui peuvent être encadrées par des requêtes claires et instructions. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte fourni (un contexte plus long permet généralement d'obtenir de meilleurs résultats, jusqu'à un certain point).
  • Ambiguïté et nuances du langage <ph type="x-smartling-placeholder">
      </ph>
    • Le langage naturel est complexe par nature. Les LLM peuvent avoir du mal à appréhender du sarcasme ou du langage figuratif.
  • Précision factuelle <ph type="x-smartling-placeholder">
      </ph>
    • Les LLM génèrent des réponses à partir des informations qu'ils ont apprises des ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes ;
  • Bon sens <ph type="x-smartling-placeholder">
      </ph>
    • Les LLM s'appuient sur des modèles statistiques liés au langage. Ils pourraient ne pas avoir la capacité d'appliquer un raisonnement de bon sens dans certaines situations.

Considérations et risques éthiques

Le développement des grands modèles de langage (LLM) soulève plusieurs problèmes éthiques. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:

  • Biais et équité <ph type="x-smartling-placeholder">
      </ph>
    • Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter les préjugés intégrés dans le matériel de formation. Ces modèles ont fait l'objet d'une surveillance un examen approfondi, une description du prétraitement des données d'entrée et des évaluations a posteriori indiquées sur cette fiche.
  • Désinformation et usage abusif <ph type="x-smartling-placeholder">
      </ph>
    • Les LLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou nuisible.
    • Des consignes sont fournies pour une utilisation responsable avec le modèle. Consultez les Kit d'outils d'IA générative responsable.
  • Transparence et responsabilité: <ph type="x-smartling-placeholder">
      </ph>
    • Cette fiche de modèle résume les détails de l'architecture les capacités, les limites et les processus d'évaluation.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs dans l'écosystème de l'IA.

Risques identifiés et atténuation:

  • Perpétuation des biais: il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examens manuels) et d'exploration de la suppression des biais pendant l'entraînement du modèle, l'affinage et d'autres cas d'utilisation.
  • Génération de contenus nuisibles: mécanismes et consignes concernant la sécurité du contenu sont essentielles. Nous encourageons les développeurs à faire preuve de prudence les mesures de protection appropriées pour la sécurité des contenus, en fonction des règles spécifiques à leurs produits. et les cas d'utilisation d'applications.
  • Usage abusif à des fins malveillantes: limites techniques, développement et la sensibilisation des utilisateurs finaux peut aider à limiter les applications malveillantes des LLM. Les ressources pédagogiques et les mécanismes de signalement permettant aux utilisateurs de signaler les usages abusifs sont fournies. Les utilisations interdites des modèles Gemma sont décrites dans les Règlement sur les utilisations interdites de Gemma.
  • Non-respect de la confidentialité: les modèles ont été entraînés avec des données filtrées afin de supprimer les informations permettant d'identifier personnellement l'utilisateur (Informations permettant d'identifier personnellement l'utilisateur). Nous encourageons les développeurs à respecter les réglementations sur la confidentialité avec des techniques protégeant la confidentialité.

Avantages

Au moment de sa publication, cette famille de modèles fournit des modèles de grands implémentations de modèles de langage conçues dès le départ pour développement d'IA par rapport à des modèles de taille similaire.

À l'aide des métriques d'évaluation des benchmarks décrites dans ce document, ces modèles ont démontré des performances supérieures à celles d'autres modèles ouverts de taille comparable alternatives.