Fiche modèle RecurrentGemma

Page du modèle:RecurrentGemma

Ressources et documentation technique:

Conditions d'utilisation:Conditions

Auteurs:Google

Informations relatives au modèle

Récapitulatif du modèle

Description

RecurrentGemma est une famille de modèles de langage ouverts basés sur une architecture récurrente innovante développée par Google. Les versions pré-entraînées et ajustées sont disponibles en anglais.

Comme Gemma, les modèles RecurrentGemma sont adaptés à diverses tâches de génération de texte, telles que la réponse à des questions, la synthèse et le raisonnement. En raison de sa nouvelle architecture, RecurrentGemma nécessite moins de mémoire que Gemma et permet une inférence plus rapide lors de la génération de longues séquences.

Entrées et sorties

  • Entrée:chaîne de texte (par exemple, une question, une requête ou un document à résumer).
  • Résultat:texte généré en anglais en réponse à la saisie (par exemple, réponse à la question ou résumé du document).

Citation

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Données du modèle

Ensemble de données d'entraînement et traitement des données

RecurrentGemma utilise les mêmes données d'entraînement et le même traitement de données que ceux utilisés par la famille de modèles Gemma. Une description complète est disponible sur la fiche du modèle Gemma.

Informations sur l'implémentation

Matériel et frameworks utilisés pendant la formation

Comme Gemma, RecurrentGemma a été entraîné sur TPUv5e à l'aide de JAX et de parcours de ML.

Informations sur l'évaluation

Résultats du benchmark

Approche d'évaluation

Ces modèles ont été évalués par rapport à une grande collection d'ensembles de données et de métriques différents afin de couvrir différents aspects de la génération de texte:

Résultats d'évaluation

Benchmark Métrique RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 shots, top-1 38,4 60.5
HellaSwag 0 shot 71,0 80,4
PIQA 0 shot 78,5 81,3
SocialIQA 0 shot 51,8 52,3
BoolQ 0 shot 71,3 80,3
WinoGrande score partiel 67,8 73,6
CommonsenseQA 7 shots 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42.3 52,0
TriviaQA 5 shots 52,5 70,5
Questions naturelles 5 shots 11,5 21,7
HumanEval pass@1 21,3 31,1
MBPP 3 shots 28,8 42,0
GSM8K maj@1 13,4 42,6
MATH 4 prises 11.0 23,8
AGIEval 23,8 39.3
BIG-Bench 35,3 55,2
Passable 44,6 56,1

Éthique et sécurité

Évaluations éthiques et de sécurité

Approche des évaluations

Nos méthodes d'évaluation comprennent des évaluations structurées et des tests internes avec Red Teaming, portant sur les règles de contenu applicables. Cette opération a été menée par un certain nombre d'équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaine différents. Ces modèles ont été évalués par rapport à différentes catégories pertinentes en termes d'éthique et de sécurité, dont les suivantes:

  • Sécurité du contenu texte-vers-texte:évaluation humaine sur les requêtes couvrant les règles de sécurité, y compris les abus sexuels sur mineurs et l'exploitation de mineurs, le harcèlement, la violence et le contenu sanglant, et l'incitation à la haine.
  • Nuis à la représentation du texte en texte:effectuez une analyse comparative par rapport à des ensembles de données universitaires pertinents tels que WinoBias et l'ensemble de données barbecue.
  • Mémorisation:évaluation automatisée de la mémorisation des données d'entraînement, y compris le risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
  • Dommages à grande échelle:tests de détection de "capacités dangereuses", tels que les risques chimiques, biologiques, radiologiques et nucléaires (CBRN), ainsi que tests de persuasion et de tromperie, de cybersécurité et de réplication autonome.

Résultats d'évaluation

Les résultats des évaluations éthiques et de sécurité sont dans les seuils acceptables pour respecter les règles internes concernant des catégories telles que la sécurité des enfants, la sécurité des contenus, les préjudices de représentation, la mémorisation et les préjudices à grande échelle. En plus de solides évaluations internes, les résultats de benchmarks de sécurité bien connus tels que barbecue, Winogender, WinoBias, RealToxicity et TruthfulQA sont affichés ici.

Benchmark Métrique RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity moy. 9.8 7,60 10.3 8.8
GRAS 39.3 52,3 39,8 47,9
Crows-Pairs top-1 41,1 43,4 38,7 39,5
Barbecue Ambig top-1 62,6 71,1 95,9 67,1
Désambiguïté d'un barbecue top-1 58.4 50,8 78,6 78,9
Winogenre top-1 55.1 54,7 59,0 64,0
TruthfulQA 35.1 42,7 38,6 47,7
WinoBias 1_2 58.4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigène 56,7 50 58,8 64,5

Utilisation et limites du modèle

Limitations connues

Ces modèles comportent certaines limites que les utilisateurs doivent connaître:

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement ont une incidence significative sur les capacités du modèle. Des biais ou des écarts dans les données d'entraînement peuvent entraîner des limites dans les réponses du modèle.
    • Le champ d'application de l'ensemble de données d'entraînement détermine les domaines que le modèle peut gérer efficacement.
  • Contexte et complexité des tâches
    • Les LLM sont plus performants pour les tâches qui peuvent être encadrées par des requêtes et des instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte fourni (un contexte plus long conduit généralement à de meilleurs résultats, jusqu'à un certain point).
  • Habitudes et nuances de la langue
    • Le langage naturel est complexe par nature. Les LLM ont parfois du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
  • Précision factuelle
    • Les LLM génèrent des réponses sur la base des informations qu'ils ont apprises à partir de leurs ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes.
  • Sens commun
    • Les LLM s'appuient sur des modèles statistiques liés au langage. Dans certaines situations, ils peuvent ne pas être en mesure d'appliquer un raisonnement de bon sens.

Considérations et risques éthiques

Le développement des grands modèles de langage (LLM) soulève plusieurs problèmes éthiques. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:

  • Biais et équité
    • Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter des biais socioculturels intégrés dans les supports de formation. Ces modèles ont fait l'objet d'un examen minutieux, ont été décrits avec le prétraitement des données d'entrée décrit et ont fait l'objet d'évaluations postérieures décrites dans cette fiche.
  • Désinformation et usage abusif
    • Les LLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou nuisible.
    • Des consignes sont fournies pour une utilisation responsable du modèle. Consultez le kit d'outils d'IA générative responsable.
  • Transparence et responsabilité
    • Cette fiche de modèle résume les détails de l'architecture, des fonctionnalités, des limites et des processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs de l'ensemble de l'écosystème de l'IA.

Risques identifiés et atténuation:

  • Perpétuation des biais:il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examen manuel) et d'étudier les techniques de suppression des biais lors de l'entraînement de modèles, de l'ajustement et d'autres cas d'utilisation.
  • Génération de contenus nuisibles:des mécanismes et des consignes concernant la sécurité des contenus sont essentiels. Nous encourageons les développeurs à faire preuve de prudence et à mettre en œuvre des mesures de sécurité appropriées pour la sécurité du contenu, en fonction des règles spécifiques de leurs produits et de leurs cas d'utilisation d'applications.
  • Usage abusif à des fins malveillantes:les limites techniques ainsi que la sensibilisation des développeurs et des utilisateurs finaux peuvent aider à limiter les applications malveillantes des LLM. Des ressources pédagogiques et des mécanismes de signalement permettant aux utilisateurs de signaler les usages abusifs sont fournis. Les utilisations interdites des modèles Gemma sont décrites dans nos Conditions d'utilisation.
  • Non-respect de la confidentialité:les modèles ont été entraînés avec des données filtrées pour la suppression des informations permettant d'identifier personnellement l'utilisateur. Nous encourageons les développeurs à respecter les réglementations sur la confidentialité en utilisant des techniques protégeant la confidentialité.

Utilisation prévue

Application

Les grands modèles de langage (LLM) ouverts ont un large éventail d'applications dans divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles dont les créateurs de modèles ont pris en compte lors de l'entraînement et du développement du modèle.

  • Création de contenu et communication
    • Génération de texte:ces modèles peuvent être utilisés pour générer des formats de texte créatifs tels que des poèmes, des scripts, du code, du texte marketing, des brouillons d'e-mails, etc.
    • Chatbots et IA conversationnelle:alimentez des interfaces de conversation pour le service client, les assistants virtuels ou les applications interactives.
    • Synthèse de texte:générez des résumés concis d'un corpus de textes, d'articles de recherche ou de rapports.
  • Recherche et enseignement
    • Recherche sur le traitement du langage naturel (TLN):ces modèles peuvent servir de base aux chercheurs pour leur permettre d'expérimenter des techniques de traitement du langage naturel, de développer des algorithmes et de contribuer aux avancées dans ce domaine.
    • Outils d'apprentissage des langues:permettent d'apprendre des langues de façon interactive, et facilitent la correction grammaticale ou les exercices d'écriture.
    • Exploration des connaissances:aidez les chercheurs à explorer de grands volumes de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Avantages

Au moment de sa publication, cette famille de modèles fournit des implémentations de grands modèles de langage ouverts et hautes performances, conçues dès le départ pour le développement d'IA responsable, par rapport à des modèles de taille similaire.

En s'appuyant sur les métriques d'évaluation des benchmarks décrites dans ce document, ces modèles offrent de meilleures performances que d'autres alternatives de modèles ouverts de taille comparable.

En particulier, les modèles RecurrentGemma atteignent des performances comparables à celles des modèles Gemma, mais sont plus rapides lors de l'inférence et nécessitent moins de mémoire, en particulier pour les séquences longues.