Fiche modèle RecurrentGemma

Page du modèle:RecurrentGemma

Ressources et documentation technique:

Conditions d'utilisation:Conditions

Auteurs:Google

Informations relatives au modèle

Récapitulatif du modèle

Description

RecurrentGemma est une famille de modèles de langage ouvert basés sur une nouvelle architecture récurrente développée par Google. Les versions pré-entraînées et réglées pour les instructions sont disponibles en anglais.

Comme Gemma, les modèles RecurrentGemma sont adaptés à diverses tâches de génération de texte, y compris la réponse à des questions, la synthèse et le raisonnement. En raison de sa nouvelle architecture, RecurrentGemma nécessite moins de mémoire que Gemma et permet une inférence plus rapide lors de la génération de longues séquences.

Entrées et sorties

  • Entrée:chaîne de texte (par exemple, une question, une invite ou un document à résumer).
  • Résultat:texte en anglais généré en réponse à la saisie (par exemple, une réponse à la question ou un résumé du document).

Citation

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Données du modèle

Ensemble de données d'entraînement et traitement des données

RecurrentGemma utilise les mêmes données d'entraînement et de traitement des données que celles utilisées par la famille de modèles Gemma. Une description complète est disponible sur la fiche de modèle Gemma.

Informations sur l'implémentation

Matériel et frameworks utilisés pendant l'entraînement

Comme pour Gemma, RecurrentGemma a été entraîné sur TPUv5e à l'aide de JAX et des parcours ML.

Informations sur l'évaluation

Résultats du benchmark

Approche d'évaluation

Ces modèles ont été évalués sur une vaste collection d'ensembles de données et de métriques différents pour couvrir différents aspects de la génération de texte:

Résultats de l'évaluation

Benchmark Métrique RecurrentGemma 2B
MMLU 5 plans, top-1 38,4
HellaSwag 0 shot 71,0
PIQA 0 shot 78,5
SocialIQA 0 shot 51,8
BoolQ 0 shot 71,3
WinoGrande score partiel 67,8
CommonsenseQA 7 plans 63,7
OpenBookQA 47,2
ARC-e 72,9
ARC-c 42.3
TriviaQA 5 plans 52.5
Questions naturelles 5 plans 11,5
HumanEval carte@1 21,3
PPM Trois plans 28,8
GSM8K maj@1 13,4
MATH 4 plans 11.0
AGIEval 23,8
BIG Bench 35,3
Passable 44,6

Éthique et sécurité

Évaluations en matière d'éthique et de sécurité

Approche basée sur les évaluations

Nos méthodes d'évaluation incluent des évaluations structurées et des tests internes de simulation des règles relatives au contenu applicables. La Red Team a été menée par plusieurs équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaines différents. Ces modèles ont été évalués selon différentes catégories en rapport avec l'éthique et la sécurité, parmi lesquelles:

  • Sécurité du contenu texte-vers-texte:évaluation humaine sur les requêtes liées aux règles de sécurité, y compris les abus sexuels sur mineurs, l'exploitation de mineurs, le harcèlement, la violence, le sang et l'incitation à la haine.
  • Nuisances de représentation texte-vers-texte:effectuez des analyses comparatives sur des ensembles de données universitaires pertinents, tels que WinoBias et les ensembles de données de barbecue.
  • Mémorisation:évaluation automatisée de la mémorisation des données d'entraînement, y compris du risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
  • Préjudice à grande échelle:tests visant à détecter des "capacités dangereuses", telles que les risques chimiques, biologiques, radiologiques et nucléaires (CBRN), ainsi que des tests de persuasion et de tromperie, de cybersécurité et de réplication autonome.

Résultats de l'évaluation

Les résultats des évaluations éthiques et de sécurité atteignent des seuils acceptables pour respecter les règles internes dans des catégories telles que la sécurité des enfants, la sécurité des contenus, les préjudices de représentation, la mémorisation et les préjudices à grande échelle. En plus d'évaluations internes fiables, les résultats d'analyses comparatives de sécurité bien connues telles que Barbecue, Winogender, Winobias, RealToxicity et TruthfulQA sont présentés ici.

Benchmark Métrique RecurrentGemma 2B RecurrentGemma 2B IT
RealToxicity moy. 9.8 7,6
GRAS 39.3 52,4
Paires corbeaux top-1 41,1 43,4
BBQ Ambig top-1 62,6 71,1
Mise au point sur un barbecue top-1 58.4 50,8
Winogenre top-1 55.1 54,7
TruthfulQA 35.1 42,7
Winobias 1_2 58.4 56,4
Winobias 2_2 90,0 75,4
Toxique 56,7 50

Utilisation et limites du modèle

Limites connues

Ces modèles présentent certaines limites que les utilisateurs doivent connaître:

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement influencent de manière significative les capacités du modèle. Les biais ou les écarts dans les données d'entraînement peuvent limiter les réponses du modèle.
    • Le champ d'application de l'ensemble de données d'entraînement détermine les thèmes que le modèle peut gérer efficacement.
  • Contexte et complexité des tâches
    • Les LLM sont plus efficaces pour les tâches qui peuvent être formulées avec des invites et des instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte fourni (un contexte plus long permet généralement d'obtenir de meilleurs résultats, jusqu'à un certain point).
  • Ambiguïté et nuance du langage
    • Le langage naturel est intrinsèquement complexe. Les LLM ont parfois du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
  • Précision factuelle
    • Les LLM génèrent des réponses en fonction des informations qu'ils ont apprises dans les ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes.
  • Sens commun
    • Les LLM s'appuient sur des modèles statistiques dans le langage. Ils peuvent ne pas être en mesure d'appliquer un raisonnement basé sur le bon sens dans certaines situations.

Considérations et risques éthiques

Le développement de grands modèles de langage (LLM) soulève plusieurs questions éthiques. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:

  • Biais et équité
    • Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter des biais socioculturels intégrés au support de formation. Ces modèles ont fait l'objet d'un examen minutieux, le prétraitement des données d'entrée est décrit et les évaluations postérieures sont mentionnées dans cette fiche.
  • Informations incorrectes et usage abusif
    • Les LLM peuvent être utilisés à mauvais escient pour générer du texte faux, trompeur ou nuisible.
    • Les consignes sont fournies pour une utilisation responsable avec le modèle. Consultez le kit d'IA générative responsable.
  • Transparence et responsabilité
    • Cette fiche de modèle résume les détails de l'architecture, des capacités, des limites et des processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs de l'écosystème d'IA.

Risques identifiés et atténuation:

  • Perpétuation des biais:nous vous encourageons à effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examen manuel) et à explorer les techniques de suppression des biais pendant l'entraînement du modèle, l'ajustement et d'autres cas d'utilisation.
  • Génération de contenus nuisibles:il est essentiel de mettre en place des mécanismes et des consignes concernant la sécurité des contenus. Nous encourageons les développeurs à faire preuve de prudence et à mettre en œuvre des mesures de sécurité appropriées pour la sécurité du contenu, en fonction de leurs règles spécifiques aux produits et des cas d'utilisation de leurs applications.
  • Usage abusif à des fins malveillantes:les limites techniques et les formations destinées aux développeurs et aux utilisateurs finaux peuvent aider à limiter les applications malveillantes de LLM. Des ressources pédagogiques et des mécanismes de signalement permettent aux utilisateurs de signaler les utilisations abusives. Les utilisations interdites des modèles Gemma sont décrites dans nos Conditions d'utilisation.
  • Non-respect de la confidentialité:les modèles ont été entraînés à l'aide de données filtrées pour supprimer les informations permettant d'identifier personnellement l'utilisateur. Nous encourageons les développeurs à respecter les réglementations sur la confidentialité avec des techniques protégeant la confidentialité.

Utilisation prévue

Application

Les grands modèles de langage ouverts (LLM, Open Large Language Model) bénéficient d'un large éventail d'applications dans divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont envisagés pour l'entraînement et le développement du modèle.

  • Création de contenus et communication
    • Génération de texte:ces modèles peuvent être utilisés pour générer des formats textuels créatifs tels que des poèmes, des scripts, du code, des textes marketing, des brouillons d'e-mails, etc.
    • Chatbots et IA conversationnelle:alimentez des interfaces de conversation pour le service client, les assistants virtuels ou les applications interactives.
    • Synthèse de texte:générez des résumés concis d'un corpus de textes, d'articles de recherche ou de rapports.
  • Recherche et enseignement
    • Recherche sur le traitement du langage naturel (TLN):ces modèles peuvent servir de base aux chercheurs pour expérimenter les techniques de TLN, développer des algorithmes et contribuer aux progrès dans ce domaine.
    • Outils d'apprentissage des langues:proposez des expériences interactives d'apprentissage des langues, aidant à la correction grammaticale ou à l'écriture.
    • Exploration des connaissances:aidez les chercheurs à explorer de grands volumes de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Avantages

Au moment de sa sortie, cette famille de modèles fournit des implémentations de grands modèles de langage ouverts hautes performances conçues dès le départ pour le développement d'une IA responsable, par rapport à des modèles de tailles similaires.

Selon les métriques d'évaluation des benchmarks décrites dans ce document, ces modèles offrent des performances supérieures à celles d'autres modèles ouverts de taille comparable.

En particulier, les modèles RecurrentGemma atteignent des performances comparables à celles des modèles Gemma, mais sont plus rapides lors de l'inférence et nécessitent moins de mémoire, en particulier sur les longues séquences.