Page du modèle: Gemma
Ressources et documentation technique:
Conditions d'utilisation: Conditions
Auteurs: Google
Infos sur le modèle
Résumé et définition des entrées et des sorties.
Description
Gemma est une famille de modèles ouverts, légers et de pointe, conçus par Google, développé à partir des recherches et technologies utilisées pour créer les modèles Gemini. Ce sont de grands modèles de langage texte-vers-texte basés uniquement sur un décodeur, disponibles en anglais, avec des pondérations ouvertes, des variantes pré-entraînées et des variantes adaptées aux instructions. Gemma sont adaptés à diverses tâches de génération de texte, y compris la synthèse et le raisonnement. Leur taille relativement petite permet de les déployer dans des environnements avec des ressources limitées, un ordinateur portable, un ordinateur de bureau ou votre propre infrastructure cloud, ce qui démocratise l'accès des modèles d'IA de pointe et favorisent l'innovation pour tous.
Entrées et sorties
- Entrée:chaîne de texte telle qu'une question, une requête ou un document résumé.
- Résultat:texte généré en anglais en réponse à l'entrée, tel que comme réponse à une question ou comme résumé d'un document.
Citation
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
Données du modèle
Données utilisées pour l'entraînement du modèle et leur traitement.
Ensemble de données d'entraînement
Ces modèles ont été entraînés sur un ensemble de données de données textuelles comprenant sources, pour un total de 6 000 milliards de jetons. Voici les principaux composants:
- Documents Web: une collection variée de texte Web garantit que le modèle est exposé. à un large éventail de styles linguistiques, de sujets et de vocabulaire. Principalement Contenu en anglais
- Code: le fait d'exposer le modèle au code permet d'apprendre la syntaxe et les modèles de programmation, ce qui améliore sa capacité à générer du code ou comprendre les questions liées au code.
- Mathématiques: l'entraînement sur du texte mathématique permet au modèle d'apprendre la logique. le raisonnement, la représentation symbolique et pour répondre à des requêtes mathématiques.
La combinaison de ces diverses sources de données est essentielle pour entraîner capable de gérer une grande variété de tâches et de textes .
Prétraitement des données
Voici les principales méthodes de nettoyage et de filtrage des données appliquées à l'entraînement données:
- Filtrage des contenus d'abus sexuels sur mineurs: le filtrage rigoureux des contenus d'abus sexuels sur mineurs était appliquée à plusieurs étapes du processus de préparation des données afin de garantir l'exclusion des contenus nuisibles et illégaux.
- Filtrage des données sensibles: pour rendre les modèles pré-entraînés de Gemma sûrs et des techniques fiables et automatisées ont été utilisées pour filtrer et d'autres données sensibles provenant d'ensembles d'entraînement.
- Méthodes supplémentaires: filtrage en fonction de la qualité et de la sécurité du contenu conformément à nos Règles.
Informations sur l'implémentation
Détails concernant les composants internes du modèle.
Matériel
Gemma a été entraînée à l'aide de la dernière génération Matériel Tensor Processing Unit (TPU) (TPUv5e)
L'entraînement de grands modèles de langage nécessite une puissance de calcul importante. TPU, spécialement conçu pour les opérations matricielles courantes en machine learning, plusieurs avantages dans ce domaine:
- Performances: les TPU sont spécialement conçus pour gérer des calculs massifs impliqués dans l'entraînement des LLM. Elles peuvent accélérer considérablement l'entraînement CPU
- Mémoire: les TPU disposent souvent d'une grande quantité de mémoire à large bande passante, ce qui permet pour gérer les grands modèles et les lots pendant l'entraînement. Cela peut d'améliorer la qualité du modèle.
- Évolutivité: les pods TPU (grands clusters de TPU) constituent une solution évolutive pour pour gérer la complexité croissante des grands modèles de fondation. Vous pouvez distribuer l'entraînement sur plusieurs appareils TPU pour un traitement plus rapide et plus efficace.
- Rentabilité: dans de nombreux cas, les TPU offrent un gain de performances qui permet d'entraîner des modèles volumineux par rapport à une infrastructure basée sur CPU, surtout si l'on tient compte du temps et des ressources économisés grâce à la rapidité de machine learning.
- Ces avantages sont adaptés Les engagements de Google pour un fonctionnement durable.
Logiciel
L'entraînement a été effectué à l'aide de JAX et de ML Pathways.
JAX permet aux chercheurs de tirer parti de la dernière génération de matériel, y compris les TPU, pour un entraînement plus rapide et plus efficace des grands modèles.
ML Pathways est la dernière initiative de Google visant à créer des systèmes artificiellement intelligents capable de généraliser sur plusieurs tâches. Ceci est particulièrement adapté aux modèles de fondation, y compris de grands modèles de langage comme ceux-ci.
Ensemble, les parcours JAX et ML sont utilisés comme décrit dans le article sur la famille de modèles Gemini ; "le 'single manette de programmation de Jax et Pathways permet de créer pour orchestrer l'ensemble de l'entraînement, ce qui simplifie considérablement le workflow de développement logiciel."
Évaluation
Métriques et résultats d'évaluation du modèle
Résultats du benchmark
Ces modèles ont été évalués par rapport à une vaste collection d'ensembles de données différents et pour couvrir différents aspects de la génération de texte:
Benchmark | Métrique | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5 shots, top-1 | 42.3 | 64,3 |
HellaSwag | 0 shot | 71,4 | 81,2 |
PIQA | 0 shot | 77,3 | 81,2 |
SocialIQA | 0 shot | 49,7 | 51,8 |
BoolQ | 0 shot | 69,4 | 83,2 |
WinoGrande | score partiel | 65,4 | 72,3 |
CommonsenseQA | 7 shots | 65,3 | 71,3 |
OpenBookQA | 47,8 | 52,8 | |
ARC-e | 73,2 | 81,5 | |
ARC-c | 42,1 | 53.2 | |
TriviaQA | 5 shots | 53.2 | 63,4 |
Questions naturelles | 5 shots | 12,5 | 23.0 |
HumanEval | pass@1 | 22.0 | 32,3 |
MBPP | 3 shots | 29,2 | 44,4 |
GSM8K | maj@1 | 17.7 | 46,4 |
MATH | 4 prises | 11.8 | 24,3 |
AGIEval | 24,2 | 41,7 | |
BIG-Bench | 35,2 | 55.1 | |
Passable | 44,9 | 56,4 |
Éthique et sécurité
Approche et résultats de l'évaluation éthique et de la sécurité
Approche d'évaluation
Nos méthodes d'évaluation incluent les évaluations structurées et le Red-teaming interne en testant les règles relatives au contenu applicables. La Red Teaming a été menée par un certain nombre de différentes équipes, chacune avec des objectifs et des métriques d'évaluation humaine différents. Ces modèles ont été évalués par rapport à un certain nombre de catégories différentes l'éthique et la sécurité, y compris:
- Sécurité du contenu texte-vers-texte: évaluation humaine des requêtes portant sur la sécurité Règles en matière d'abus sexuels sur mineurs, d'exploitation de mineurs, de harcèlement et de violence et l'incitation à la haine.
- Préjugés représentatifs du texte-vers-texte: comparaison avec des données académiques pertinentes tels que WinoBias et BBQ Dataset.
- Mémorisation: évaluation automatisée de la mémorisation des données d'entraînement, y compris le risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
- Préjudice à grande échelle: teste des "fonctionnalités dangereuses", telles que les données chimiques, les risques biologiques, radiologiques et nucléaires (CBRN)
Résultats de l'évaluation
Les résultats des évaluations éthiques et de sécurité sont dans la limite des seuils acceptables pour respecter les règles internes de catégories telles que les enfants sécurité, sécurité du contenu, préjudices de représentation, mémorisation, préjudices à grande échelle. En plus d'évaluations internes rigoureuses, les résultats des benchmarks tels que barbecue, BOLD, Winogender, Winobias, RealToxicity et TruthfulQA. sont affichées ici.
Gemma 1.0
Benchmark | Métrique | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | moyenne | 6,86 | 7,90 |
BOLD | 45,57 | 49,08 | |
Crows-Pairs | top-1 | 45,82 | 51,33 |
Barbecue Ambig | 1 shot, top-1 | 62,58 | 92,54 |
Désambiguïté d'un barbecue | top-1 | 54,62 | 71,99 |
Winogenre | top-1 | 51,25 | 54,17 |
TruthfulQA | 44,84 | 31,81 | |
Winobias 1_2 | 56,12 | 59,09 | |
Winobias 2_2 | 91,10 | 92,23 | |
Toxigen | 29.77 | 39,59 |
Gemma 1.1
Benchmark | Métrique | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | moyenne | 7,03 | 8,04 |
BOLD | 47,76 | ||
Crows-Pairs | top-1 | 45,89 | 49,67 |
Barbecue Ambig | 1 shot, top-1 | 58,97 | 86,06 |
Désambiguïté d'un barbecue | top-1 | 53,90 | 85,08 |
Winogenre | top-1 | 50,14 | 57,64 |
TruthfulQA | 44,24 | 45,34 | |
Winobias 1_2 | 55,93 | 59,22 | |
Winobias 2_2 | 89,46 | 89,2 | |
Toxigen | 29,64 | 38,75 |
Utilisation et limites
Ces modèles comportent certaines limites que les utilisateurs doivent connaître.
Utilisation prévue
Les grands modèles de langage ouverts (LLM) ont un large éventail d'applications dans divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas complètes. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles envisagés par les créateurs du modèle dans le cadre du modèle la formation et le développement.
- Création de contenu et communication
<ph type="x-smartling-placeholder">
- </ph>
- Génération de texte: ces modèles permettent de générer des formats de texte pour les créations. tels que des poèmes, des scripts, du code, des textes marketing et des brouillons d'e-mails.
- Chatbots et IA conversationnelle: des interfaces de conversation optimisées pour les clients des assistants virtuels ou des applications interactives.
- Synthèse de texte: générez des résumés concis d'un corpus de textes, d'une recherche des articles ou des rapports.
- Recherche et enseignement
<ph type="x-smartling-placeholder">
- </ph>
- Recherche sur le traitement du langage naturel (TLN) : ces modèles peuvent servir de base permettant aux chercheurs d'expérimenter les techniques de TLN, de développer et les algorithmes, et contribuent aux avancées dans ce domaine.
- Outils d'apprentissage linguistique: favorisez des expériences d'apprentissage des langues interactives d'aider à corriger la grammaire ou à s'entraîner à l'écriture.
- Exploration des connaissances: aidez les chercheurs à explorer de grands volumes de texte. en générant des résumés ou en répondant à des questions sur des sujets spécifiques.
Limites
- Données d'entraînement
<ph type="x-smartling-placeholder">
- </ph>
- La qualité et la diversité des données d'entraînement ont un impact significatif les capacités du modèle. Les biais ou les écarts dans les données d'entraînement peuvent entraîner les limites des réponses du modèle.
- Le champ d'application de l'ensemble de données d'entraînement détermine les domaines que le modèle peut gérer efficacement.
- Contexte et complexité de la tâche
<ph type="x-smartling-placeholder">
- </ph>
- Les LLM sont plus performants pour les tâches qui peuvent être encadrées par des requêtes claires et instructions. Les tâches ouvertes ou très complexes peuvent être difficiles.
- Les performances d'un modèle peuvent être influencées par la quantité de contexte fourni (un contexte plus long permet généralement d'obtenir de meilleurs résultats, jusqu'à un certain point).
- Ambiguïté et nuances du langage
<ph type="x-smartling-placeholder">
- </ph>
- Le langage naturel est complexe par nature. Les LLM peuvent avoir du mal à appréhender du sarcasme ou du langage figuratif.
- Précision factuelle
<ph type="x-smartling-placeholder">
- </ph>
- Les LLM génèrent des réponses à partir des informations qu'ils ont apprises des ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes ;
- Bon sens
<ph type="x-smartling-placeholder">
- </ph>
- Les LLM s'appuient sur des modèles statistiques liés au langage. Ils pourraient ne pas avoir la capacité d'appliquer un raisonnement de bon sens dans certaines situations.
Considérations et risques éthiques
Le développement des grands modèles de langage (LLM) soulève plusieurs problèmes éthiques. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:
- Biais et équité
<ph type="x-smartling-placeholder">
- </ph>
- Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter les préjugés intégrés dans le matériel de formation. Ces modèles ont fait l'objet d'une surveillance un examen approfondi, une description du prétraitement des données d'entrée et des évaluations a posteriori indiquées sur cette fiche.
- Désinformation et usage abusif
<ph type="x-smartling-placeholder">
- </ph>
- Les LLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou nuisible.
- Des consignes sont fournies pour une utilisation responsable avec le modèle. Consultez les Kit d'outils d'IA générative responsable.
- Transparence et responsabilité:
<ph type="x-smartling-placeholder">
- </ph>
- Cette fiche de modèle résume les détails de l'architecture les capacités, les limites et les processus d'évaluation.
- Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs dans l'écosystème de l'IA.
Risques identifiés et atténuation:
- Perpétuation des biais: il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examens manuels) et d'exploration de la suppression des biais pendant l'entraînement du modèle, l'affinage et d'autres cas d'utilisation.
- Génération de contenus nuisibles: mécanismes et consignes concernant la sécurité du contenu sont essentielles. Nous encourageons les développeurs à faire preuve de prudence les mesures de protection appropriées pour la sécurité des contenus, en fonction des règles spécifiques à leurs produits. et les cas d'utilisation d'applications.
- Usage abusif à des fins malveillantes: limites techniques, développement et la sensibilisation des utilisateurs finaux peut aider à limiter les applications malveillantes des LLM. Les ressources pédagogiques et les mécanismes de signalement permettant aux utilisateurs de signaler les usages abusifs sont fournies. Les utilisations interdites des modèles Gemma sont décrites dans les Règlement sur les utilisations interdites de Gemma.
- Non-respect de la confidentialité: les modèles ont été entraînés avec des données filtrées afin de supprimer les informations permettant d'identifier personnellement l'utilisateur (Informations permettant d'identifier personnellement l'utilisateur). Nous encourageons les développeurs à respecter les réglementations sur la confidentialité avec des techniques protégeant la confidentialité.
Avantages
Au moment de sa publication, cette famille de modèles fournit des modèles de grands implémentations de modèles de langage conçues dès le départ pour développement d'IA par rapport à des modèles de taille similaire.
À l'aide des métriques d'évaluation des benchmarks décrites dans ce document, ces modèles ont démontré des performances supérieures à celles d'autres modèles ouverts de taille comparable alternatives.