Fiche modèle RecurrentGemma

Page du modèle:RecurrentGemma

Ressources et documentation technique:

Conditions d'utilisation:Conditions

Auteurs:Google

Informations relatives au modèle

Récapitulatif du modèle

Description

RecurrentGemma est une famille de modèles de langage ouverts basés sur une nouvelle architecture récurrente développée chez Google. Les versions pré-entraînées et celles optimisées par instruction sont disponibles en anglais.

Comme Gemma, les modèles RecurrentGemma sont adaptés à diverses tâches de génération de texte, y compris la réponse aux questions, la synthèse et le raisonnement. En raison de son architecture novatrice, RecurrentGemma nécessite moins de mémoire que Gemma et effectue des inférences plus rapides lors de la génération de séquences longues.

Entrées et sorties

  • Entrée:chaîne de texte (par exemple, une question, une requête ou un document à résumer).
  • Sortie:texte généré en anglais en réponse à l'entrée (par exemple, une réponse à la question, un résumé du document).

Citation

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Données du modèle

Ensemble de données d'entraînement et traitement des données

RecurrentGemma utilise les mêmes données d'entraînement et le même traitement des données que la famille de modèles Gemma. Vous trouverez une description complète sur la fiche du modèle Gemma.

Informations d'implémentation

Matériel et frameworks utilisés pendant l'entraînement

Comme Gemma, RecurrentGemma a été entraîné sur TPUv5e, à l'aide de JAX et de ML Pathways.

Informations sur l'évaluation

Résultats du benchmark

Approche d'évaluation

Ces modèles ont été évalués par rapport à un grand nombre d'ensembles de données et de métriques différents pour couvrir différents aspects de la génération de texte:

Résultats d'évaluation

Benchmark Métrique RecurrentGemma 2B RecurrentGemma 9B
MMLU 5-shot, top-1 38,4 60.5
HellaSwag Zero-shot 71 80,4
PIQA Zero-shot 78,5 81,3
SocialIQA Zero-shot 51,8 52,3
BoolQ Zero-shot 71,3 80,3
WinoGrande score partiel 67,8 73,6
CommonsenseQA 7-shot 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42.3 52
TriviaQA 5 tirs 52,5 70,5
Questions naturelles 5 tirs 11.5 21,7
HumanEval pass@1 21,3 31.1
MBPP 3-shot 28,8 42
GSM8K maj@1 13,4 42,6
MATH 4 coups 11.0 23,8
AGIEval 23,8 39.3
BIG-Bench 35,3 55.2
Passable 44,6 56.1

Éthique et sécurité

Évaluations de l'éthique et de la sécurité

Approche d'évaluation

Nos méthodes d'évaluation incluent des évaluations structurées et des tests internes de red teaming sur les règles de contenu pertinentes. La simulation d'attaque a été menée par plusieurs équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaines différents. Ces modèles ont été évalués en fonction d'un certain nombre de catégories différentes liées à l'éthique et à la sécurité, y compris les suivantes:

  • Sécurité des contenus de chat:évaluation humaine des requêtes couvrant les règles de sécurité, y compris l'exploitation et les abus sexuels sur mineurs, le harcèlement, la violence et l'incitation à la haine.
  • Dommages représentationnels de texte à texte:comparaison avec des ensembles de données universitaires pertinents tels que WinoBias et BBQ Dataset.
  • Mémorisation:évaluation automatisée de la mémorisation des données d'entraînement, y compris du risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
  • Dommages à grande échelle:tests des "capacités dangereuses", telles que les risques chimiques, biologiques, radiologiques et nucléaires (CBRN), ainsi que tests de la persuasion et de la tromperie, de la cybersécurité et de la réplication autonome.

Résultats d'évaluation

Les résultats des évaluations éthiques et de sécurité sont conformes aux seuils acceptables pour respecter les Règles internes pour les catégories telles que la sécurité des enfants, la sécurité des contenus, les préjudices représentationnels, la mémorisation et les préjudices à grande échelle. En plus des évaluations internes rigoureuses, les résultats de benchmarks de sécurité bien connus tels que BBQ, Winogender, WinoBias, RealToxicity et TruthfulQA sont présentés ici.

Benchmark Métrique RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity moy. 9.8 7,60 10.3 8.8
GRAS 39.3 52,3 39,8 47,9
CrowS-Pairs top-1 41.1 43,4 38,7 39,5
BBQ Ambig top-1 62,6 71.1 95,9 67,1
BBQ Disambig top-1 58.4 50,8 78,6 78,9
Winogender top-1 55.1 54,7 59 64
TruthfulQA 35.1 42,7 38,6 47,7
WinoBias 1_2 58.4 56,4 61,5 60,6
WinoBias 2_2 90 75,4 90,2 90,3
Toxigen 56,7 50 58,8 64,5

Utilisation et limites des modèles

Limites connues

Ces modèles présentent certaines limites que les utilisateurs doivent connaître:

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement ont une influence significative sur les capacités du modèle. Les biais ou les écarts dans les données d'entraînement peuvent entraîner des limites dans les réponses du modèle.
    • La portée de l'ensemble de données d'entraînement détermine les domaines que le modèle peut gérer efficacement.
  • Contexte et complexité des tâches
    • Les LLM sont plus efficaces pour les tâches qui peuvent être définies à l'aide d'invites et d'instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte fournie (un contexte plus long conduit généralement à de meilleurs résultats, jusqu'à un certain point).
  • Ambiguïté et nuances du langage
    • Le langage naturel est intrinsèquement complexe. Les LLM peuvent avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
  • Précision factuelle
    • Les LLM génèrent des réponses en fonction des informations qu'ils ont apprises à partir de leurs ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Ils peuvent générer des déclarations factuelles incorrectes ou obsolètes.
  • Bon sens
    • Les LLM s'appuient sur des structures statistiques du langage. Il peut lui manquer la capacité d'appliquer un raisonnement de bon sens dans certaines situations.

Considérations et risques éthiques

Le développement de grands modèles de langage (LLM) soulève plusieurs questions éthiques. Pour créer un modèle ouvert, nous avons pris en compte les points suivants:

  • Biais et équité
    • Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter les biais socioculturels intégrés au matériel d'entraînement. Ces modèles ont été examinés avec soin, le prétraitement des données d'entrée a été décrit et les évaluations ultérieures ont été signalées dans cette fiche.
  • Informations incorrectes et utilisation abusive
  • Transparence et responsabilité
    • Cette fiche de modèle résume les informations sur l'architecture, les fonctionnalités, les limites et les processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.

Risques identifiés et mesures d'atténuation:

  • Perpétuation des biais:nous vous encourageons à effectuer une surveillance continue (à l'aide de métriques d'évaluation et d'examens humains) et à explorer des techniques de débiasage lors de l'entraînement, du réglage fin et d'autres cas d'utilisation des modèles.
  • Génération de contenus nuisibles:des mécanismes et des consignes de sécurité des contenus sont essentiels. Les développeurs sont encouragés à faire preuve de prudence et à mettre en place des mesures de sécurité appropriées pour le contenu en fonction des règles spécifiques de leurs produits et des cas d'utilisation de leurs applications.
  • Usage à des fins malveillantes:les limites techniques et la formation des développeurs et des utilisateurs finaux peuvent aider à limiter les applications malveillantes des LLM. Des ressources pédagogiques et des mécanismes de signalement sont fournis pour permettre aux utilisateurs de signaler les utilisations abusives. Les utilisations interdites des modèles Gemma sont décrites dans nos Conditions d'utilisation.
  • Non-respect de la confidentialité:les modèles ont été entraînés sur des données filtrées pour supprimer les informations permettant d'identifier personnellement l'utilisateur. Les développeurs sont encouragés à respecter les réglementations sur la confidentialité à l'aide de techniques protégeant la confidentialité.

Utilisation prévue

Application

Les grands modèles de langage (LLM) ouverts ont de nombreuses applications dans différents secteurs et domaines. La liste suivante des utilisations potentielles n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont pris en compte lors de l'entraînement et du développement du modèle.

  • Création de contenu et communication
    • Génération de texte:ces modèles peuvent être utilisés pour générer des formats de texte créatifs tels que des poèmes, des scripts, du code, des textes marketing, des brouillons d'e-mails, etc.
    • Chatbots et IA conversationnelle:alimentez les interfaces de conversation pour le service client, les assistants virtuels ou les applications interactives.
    • Synthèse de texte:génère des résumés concis d'un corpus de texte, de documents de recherche ou de rapports.
  • Recherche et éducation
    • Recherche sur le traitement du langage naturel (TLN):ces modèles peuvent servir de base aux chercheurs pour tester des techniques de traitement du langage naturel, développer des algorithmes et contribuer au développement de ce domaine.
    • Outils d'apprentissage des langues:permettent de proposer des expériences d'apprentissage des langues interactives, de corriger la grammaire ou de s'entraîner à écrire.
    • Exploration des connaissances:aide les chercheurs à explorer de grands volumes de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Avantages

Au moment de la publication, cette famille de modèles fournit des implémentations de grands modèles de langage ouverts hautes performances conçues dès le départ pour le développement d'une IA responsable, par rapport aux modèles de taille similaire.

En utilisant les métriques d'évaluation de référence décrites dans ce document, ces modèles ont démontré qu'ils fournissaient des performances supérieures à celles d'autres alternatives de modèles ouverts de taille comparable.

Plus précisément, les modèles RecurrentGemma offrent des performances comparables à celles des modèles Gemma, mais ils sont plus rapides lors de l'inférence et nécessitent moins de mémoire, en particulier pour les séquences longues.