Consultez le dépôt des livres de recettes Gemma pour des exemples de génération et de réglage ! En savoir plus

Cette page a été traduite par l'API Cloud Translation.

Fiche de modèle Gemma

Page du modèle: Gemma

Ressources et documentation technique:

Conditions d'utilisation: Conditions

Auteurs: Google

Infos sur le modèle

Résumé et définition des entrées et des sorties.

Description

Gemma est une famille de modèles ouverts, légers et de pointe, conçus par Google, développé à partir des recherches et technologies utilisées pour créer les modèles Gemini. Ce sont de grands modèles de langage texte-vers-texte basés uniquement sur un décodeur, disponibles en anglais, avec des pondérations ouvertes, des variantes pré-entraînées et des variantes adaptées aux instructions. Gemma sont adaptés à diverses tâches de génération de texte, y compris la synthèse et le raisonnement. Leur taille relativement petite permet de les déployer dans des environnements avec des ressources limitées, un ordinateur portable, un ordinateur de bureau ou votre propre infrastructure cloud, ce qui démocratise l'accès des modèles d'IA de pointe et favorisent l'innovation pour tous.

Entrées et sorties

Entrée:chaîne de texte telle qu'une question, une requête ou un document résumé.
Résultat:texte généré en anglais en réponse à l'entrée, tel que comme réponse à une question ou comme résumé d'un document.

Citation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Données du modèle

Données utilisées pour l'entraînement du modèle et leur traitement.

Ensemble de données d'entraînement

Ces modèles ont été entraînés sur un ensemble de données de données textuelles comprenant sources, pour un total de 6 000 milliards de jetons. Voici les principaux composants:

Documents Web: une collection variée de texte Web garantit que le modèle est exposé. à un large éventail de styles linguistiques, de sujets et de vocabulaire. Principalement Contenu en anglais
Code: le fait d'exposer le modèle au code permet d'apprendre la syntaxe et les modèles de programmation, ce qui améliore sa capacité à générer du code ou comprendre les questions liées au code.
Mathématiques: l'entraînement sur du texte mathématique permet au modèle d'apprendre la logique. le raisonnement, la représentation symbolique et pour répondre à des requêtes mathématiques.

La combinaison de ces diverses sources de données est essentielle pour entraîner capable de gérer une grande variété de tâches et de textes .

Prétraitement des données

Voici les principales méthodes de nettoyage et de filtrage des données appliquées à l'entraînement données:

Filtrage des contenus d'abus sexuels sur mineurs: le filtrage rigoureux des contenus d'abus sexuels sur mineurs était appliquée à plusieurs étapes du processus de préparation des données afin de garantir l'exclusion des contenus nuisibles et illégaux.
Filtrage des données sensibles: pour rendre les modèles pré-entraînés de Gemma sûrs et des techniques fiables et automatisées ont été utilisées pour filtrer et d'autres données sensibles provenant d'ensembles d'entraînement.
Méthodes supplémentaires: filtrage en fonction de la qualité et de la sécurité du contenu conformément à nos Règles.

Informations sur l'implémentation

Détails concernant les composants internes du modèle.

Matériel

Gemma a été entraînée à l'aide de la dernière génération Matériel Tensor Processing Unit (TPU) (TPUv5e)

L'entraînement de grands modèles de langage nécessite une puissance de calcul importante. TPU, spécialement conçu pour les opérations matricielles courantes en machine learning, plusieurs avantages dans ce domaine:

Performances: les TPU sont spécialement conçus pour gérer des calculs massifs impliqués dans l'entraînement des LLM. Elles peuvent accélérer considérablement l'entraînement CPU
Mémoire: les TPU disposent souvent d'une grande quantité de mémoire à large bande passante, ce qui permet pour gérer les grands modèles et les lots pendant l'entraînement. Cela peut d'améliorer la qualité du modèle.
Évolutivité: les pods TPU (grands clusters de TPU) constituent une solution évolutive pour pour gérer la complexité croissante des grands modèles de fondation. Vous pouvez distribuer l'entraînement sur plusieurs appareils TPU pour un traitement plus rapide et plus efficace.
Rentabilité: dans de nombreux cas, les TPU offrent un gain de performances qui permet d'entraîner des modèles volumineux par rapport à une infrastructure basée sur CPU, surtout si l'on tient compte du temps et des ressources économisés grâce à la rapidité de machine learning.
Ces avantages sont adaptés Les engagements de Google pour un fonctionnement durable.

Logiciel

L'entraînement a été effectué à l'aide de JAX et de ML Pathways.

JAX permet aux chercheurs de tirer parti de la dernière génération de matériel, y compris les TPU, pour un entraînement plus rapide et plus efficace des grands modèles.

ML Pathways est la dernière initiative de Google visant à créer des systèmes artificiellement intelligents capable de généraliser sur plusieurs tâches. Ceci est particulièrement adapté aux modèles de fondation, y compris de grands modèles de langage comme ceux-ci.

Ensemble, les parcours JAX et ML sont utilisés comme décrit dans le article sur la famille de modèles Gemini ; "le 'single manette de programmation de Jax et Pathways permet de créer pour orchestrer l'ensemble de l'entraînement, ce qui simplifie considérablement le workflow de développement logiciel."

Évaluation

Métriques et résultats d'évaluation du modèle

Résultats du benchmark

Ces modèles ont été évalués par rapport à une vaste collection d'ensembles de données différents et pour couvrir différents aspects de la génération de texte:

Benchmark	Métrique	Gemma PT 2B	Gemma PT 7B
MMLU	5 shots, top-1	42.3	64,3
HellaSwag	0 shot	71,4	81,2
PIQA	0 shot	77,3	81,2
SocialIQA	0 shot	49,7	51,8
BoolQ	0 shot	69,4	83,2
WinoGrande	score partiel	65,4	72,3
CommonsenseQA	7 shots	65,3	71,3
OpenBookQA		47,8	52,8
ARC-e		73,2	81,5
ARC-c		42,1	53.2
TriviaQA	5 shots	53.2	63,4
Questions naturelles	5 shots	12,5	23.0
HumanEval	pass@1	22.0	32,3
MBPP	3 shots	29,2	44,4
GSM8K	maj@1	17.7	46,4
MATH	4 prises	11.8	24,3
AGIEval		24,2	41,7
BIG-Bench		35,2	55.1
Passable		44,9	56,4

Éthique et sécurité

Approche et résultats de l'évaluation éthique et de la sécurité

Approche d'évaluation

Nos méthodes d'évaluation incluent les évaluations structurées et le Red-teaming interne en testant les règles relatives au contenu applicables. La Red Teaming a été menée par un certain nombre de différentes équipes, chacune avec des objectifs et des métriques d'évaluation humaine différents. Ces modèles ont été évalués par rapport à un certain nombre de catégories différentes l'éthique et la sécurité, y compris:

Sécurité du contenu texte-vers-texte: évaluation humaine des requêtes portant sur la sécurité Règles en matière d'abus sexuels sur mineurs, d'exploitation de mineurs, de harcèlement et de violence et l'incitation à la haine.
Préjugés représentatifs du texte-vers-texte: comparaison avec des données académiques pertinentes tels que WinoBias et BBQ Dataset.
Mémorisation: évaluation automatisée de la mémorisation des données d'entraînement, y compris le risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
Préjudice à grande échelle: teste des "fonctionnalités dangereuses", telles que les données chimiques, les risques biologiques, radiologiques et nucléaires (CBRN)

Résultats de l'évaluation

Les résultats des évaluations éthiques et de sécurité sont dans la limite des seuils acceptables pour respecter les règles internes de catégories telles que les enfants sécurité, sécurité du contenu, préjudices de représentation, mémorisation, préjudices à grande échelle. En plus d'évaluations internes rigoureuses, les résultats des benchmarks tels que barbecue, BOLD, Winogender, Winobias, RealToxicity et TruthfulQA. sont affichées ici.

Gemma 1.0

Benchmark	Métrique	Gemma 1.0 IT 2B	Gemma 1.0 IT 7B
RealToxicity	moyenne	6,86	7,90
BOLD		45,57	49,08
Crows-Pairs	top-1	45,82	51,33
Barbecue Ambig	1 shot, top-1	62,58	92,54
Désambiguïté d'un barbecue	top-1	54,62	71,99
Winogenre	top-1	51,25	54,17
TruthfulQA		44,84	31,81
Winobias 1_2		56,12	59,09
Winobias 2_2		91,10	92,23
Toxigen		29.77	39,59

Gemma 1.1

Benchmark	Métrique	Gemma 1.1 IT 2B	Gemma 1.1 IT 7B
RealToxicity	moyenne	7,03	8,04
BOLD		47,76
Crows-Pairs	top-1	45,89	49,67
Barbecue Ambig	1 shot, top-1	58,97	86,06
Désambiguïté d'un barbecue	top-1	53,90	85,08
Winogenre	top-1	50,14	57,64
TruthfulQA		44,24	45,34
Winobias 1_2		55,93	59,22
Winobias 2_2		89,46	89,2
Toxigen		29,64	38,75

Utilisation et limites

Ces modèles comportent certaines limites que les utilisateurs doivent connaître.

Utilisation prévue

Les grands modèles de langage ouverts (LLM) ont un large éventail d'applications dans divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas complètes. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles envisagés par les créateurs du modèle dans le cadre du modèle la formation et le développement.

Création de contenu et communication <ph type="x-smartling-placeholder">
- Génération de texte: ces modèles permettent de générer des formats de texte pour les créations. tels que des poèmes, des scripts, du code, des textes marketing et des brouillons d'e-mails.
- Chatbots et IA conversationnelle: des interfaces de conversation optimisées pour les clients des assistants virtuels ou des applications interactives.
- Synthèse de texte: générez des résumés concis d'un corpus de textes, d'une recherche des articles ou des rapports.
Recherche et enseignement <ph type="x-smartling-placeholder">
- Recherche sur le traitement du langage naturel (TLN) : ces modèles peuvent servir de base permettant aux chercheurs d'expérimenter les techniques de TLN, de développer et les algorithmes, et contribuent aux avancées dans ce domaine.
- Outils d'apprentissage linguistique: favorisez des expériences d'apprentissage des langues interactives d'aider à corriger la grammaire ou à s'entraîner à l'écriture.
- Exploration des connaissances: aidez les chercheurs à explorer de grands volumes de texte. en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Limites

Données d'entraînement <ph type="x-smartling-placeholder">
- La qualité et la diversité des données d'entraînement ont un impact significatif les capacités du modèle. Les biais ou les écarts dans les données d'entraînement peuvent entraîner les limites des réponses du modèle.
- Le champ d'application de l'ensemble de données d'entraînement détermine les domaines que le modèle peut gérer efficacement.
Contexte et complexité de la tâche <ph type="x-smartling-placeholder">
- Les LLM sont plus performants pour les tâches qui peuvent être encadrées par des requêtes claires et instructions. Les tâches ouvertes ou très complexes peuvent être difficiles.
- Les performances d'un modèle peuvent être influencées par la quantité de contexte fourni (un contexte plus long permet généralement d'obtenir de meilleurs résultats, jusqu'à un certain point).
Ambiguïté et nuances du langage <ph type="x-smartling-placeholder">
- Le langage naturel est complexe par nature. Les LLM peuvent avoir du mal à appréhender du sarcasme ou du langage figuratif.
Précision factuelle <ph type="x-smartling-placeholder">
- Les LLM génèrent des réponses à partir des informations qu'ils ont apprises des ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes ;
Bon sens <ph type="x-smartling-placeholder">
- Les LLM s'appuient sur des modèles statistiques liés au langage. Ils pourraient ne pas avoir la capacité d'appliquer un raisonnement de bon sens dans certaines situations.

Considérations et risques éthiques

Le développement des grands modèles de langage (LLM) soulève plusieurs problèmes éthiques. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:

Biais et équité <ph type="x-smartling-placeholder">
- Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter les préjugés intégrés dans le matériel de formation. Ces modèles ont fait l'objet d'une surveillance un examen approfondi, une description du prétraitement des données d'entrée et des évaluations a posteriori indiquées sur cette fiche.
Désinformation et usage abusif <ph type="x-smartling-placeholder">
- Les LLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou nuisible.
- Des consignes sont fournies pour une utilisation responsable avec le modèle. Consultez les Kit d'outils d'IA générative responsable.
Transparence et responsabilité: <ph type="x-smartling-placeholder">
- Cette fiche de modèle résume les détails de l'architecture les capacités, les limites et les processus d'évaluation.
- Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs dans l'écosystème de l'IA.

Risques identifiés et atténuation:

Perpétuation des biais: il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examens manuels) et d'exploration de la suppression des biais pendant l'entraînement du modèle, l'affinage et d'autres cas d'utilisation.
Génération de contenus nuisibles: mécanismes et consignes concernant la sécurité du contenu sont essentielles. Nous encourageons les développeurs à faire preuve de prudence les mesures de protection appropriées pour la sécurité des contenus, en fonction des règles spécifiques à leurs produits. et les cas d'utilisation d'applications.
Usage abusif à des fins malveillantes: limites techniques, développement et la sensibilisation des utilisateurs finaux peut aider à limiter les applications malveillantes des LLM. Les ressources pédagogiques et les mécanismes de signalement permettant aux utilisateurs de signaler les usages abusifs sont fournies. Les utilisations interdites des modèles Gemma sont décrites dans les Règlement sur les utilisations interdites de Gemma.
Non-respect de la confidentialité: les modèles ont été entraînés avec des données filtrées afin de supprimer les informations permettant d'identifier personnellement l'utilisateur (Informations permettant d'identifier personnellement l'utilisateur). Nous encourageons les développeurs à respecter les réglementations sur la confidentialité avec des techniques protégeant la confidentialité.

Avantages

Au moment de sa publication, cette famille de modèles fournit des modèles de grands implémentations de modèles de langage conçues dès le départ pour développement d'IA par rapport à des modèles de taille similaire.

À l'aide des métriques d'évaluation des benchmarks décrites dans ce document, ces modèles ont démontré des performances supérieures à celles d'autres modèles ouverts de taille comparable alternatives.