Fiche modèle RecurrentGemma

Page du modèle:RecurrentGemma

Ressources et documentation technique:

Conditions d'utilisation:Conditions

Auteurs:Google

Informations relatives au modèle

Récapitulatif du modèle

Description

RecurrentGemma est une famille de modèles de langage ouverts basés sur un roman récurrent architecture développée par Google. Les deux les versions pré-entraînées et adaptées sont disponibles en anglais.

Tout comme Gemma, les modèles RecurrentGemma sont adaptés à une grande variété de textes tâches de génération, notamment la réponse aux questions, la synthèse et le raisonnement. En raison de sa nouvelle architecture, RecurrentGemma nécessite moins de mémoire que Gemma accélère l'inférence lors de la génération de longues séquences.

Entrées et sorties

  • Entrée:chaîne de texte (par exemple, une question, une requête ou un document résumée).
  • Résultat:texte généré en anglais en réponse à l'entrée (par exemple, une réponse à la question, un résumé du document).

Citation

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Données du modèle

Ensemble de données d'entraînement et traitement des données

RecurrentGemma utilise les mêmes données d'entraînement et le même traitement de données que Famille de modèles Gemma. Une description complète est disponible sur le modèle Gemma carte.

Informations sur l'implémentation

Matériel et frameworks utilisés pendant la formation

J'aime Gemma RecurrentGemma a été entraîné sur TPUv5e, avec JAX et ML Parcours.

Informations sur l'évaluation

Résultats du benchmark

Approche d'évaluation

Ces modèles ont été évalués par rapport à une vaste collection d'ensembles de données différents et pour couvrir différents aspects de la génération de texte:

Résultats d'évaluation

Benchmark Métrique RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 shots, top-1 38,4 60.5
HellaSwag 0 shot 71,0 80,4
PIQA 0 shot 78,5 81,3
SocialIQA 0 shot 51,8 52,3
BoolQ 0 shot 71,3 80,3
WinoGrande score partiel 67,8 73,6
CommonsenseQA 7 shots 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42.3 52,0
TriviaQA 5 shots 52,5 70,5
Questions naturelles 5 shots 11.5 21,7
HumanEval pass@1 21,3 31,1
MBPP 3 shots 28,8 42,0
GSM8K maj@1 13,4 42,6
MATH 4 prises 11.0 23,8
AGIEval 23,8 39.3
BIG-Bench 35,3 55,2
Passable 44,6 56,1

Éthique et sécurité

Évaluations éthiques et de sécurité

Approche des évaluations

Nos méthodes d'évaluation incluent les évaluations structurées et le Red-teaming interne en testant les règles relatives au contenu applicables. La Red Teaming a été menée par un certain nombre de différentes équipes, chacune avec des objectifs et des métriques d'évaluation humaine différents. Ces modèles ont été évalués par rapport à un certain nombre de catégories différentes l'éthique et la sécurité, y compris:

  • Sécurité du contenu texte-vers-texte:évaluation humaine des requêtes portant sur la sécurité Règles en matière d'abus sexuels sur mineurs, d'exploitation de mineurs, de harcèlement et de violence et l'incitation à la haine.
  • Nuisances à la représentation du texte en texte:comparaison avec des données académiques pertinentes tels que WinoBias et Barbecue Dataset.
  • Mémorisation:évaluation automatisée de la mémorisation des données d'entraînement y compris le risque d'exposition d'informations permettant d'identifier personnellement l'utilisateur.
  • Nuis à grande échelle:tests de détection de "capacités dangereuses", telles que les produits chimiques, les risques biologiques, radiologiques et nucléaires (CBRN) ; ainsi que des tests la persuasion et la tromperie, la cybersécurité et la réplication autonome.

Résultats d'évaluation

Les résultats des évaluations éthiques et de sécurité sont dans la limite des seuils acceptables pour les réunions internes règles pour des catégories telles que la sécurité des enfants, la sécurité du contenu, les préjudices de représentation, la mémorisation, les préjudices à grande échelle. En plus d'évaluations internes rigoureuses, le des résultats de critères de sécurité bien connus comme barbecue, Winogender, WinoBias, RealToxicity et TruthfulQA sont présentés ici.

Benchmark Métrique RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity moy. 9.8 7,60 10.3 8.8
BOLD 39.3 52,3 39,8 47,9
Crows-Pairs top-1 41,1 43,4 38,7 39,5
Barbecue Ambig top-1 62,6 71,1 95,9 67,1
Désambiguïté d'un barbecue top-1 58.4 50,8 78,6 78,9
Winogenre top-1 55.1 54,7 59,0 64,0
TruthfulQA 35.1 42,7 38,6 47,7
WinoBias 1_2 58.4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigen 56,7 50 58,8 64,5

Utilisation et limites du modèle

Limites connues

Ces modèles comportent certaines limites que les utilisateurs doivent connaître:

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement ont un impact significatif les capacités du modèle. Les biais ou les écarts dans les données d'entraînement peuvent entraîner aux limites des réponses du modèle.
    • Le champ d'application de l'ensemble de données d'entraînement détermine les domaines dans lesquels le modèle pouvez gérer efficacement.
  • Contexte et complexité des tâches
    • Les LLM sont plus performants pour les tâches qui peuvent être encadrées par des requêtes claires et instructions. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte (un contexte plus long permet généralement d'obtenir de meilleurs résultats, jusqu'à un certain point).
  • Habitudes et nuances de la langue
    • Le langage naturel est complexe par nature. Les LLM peuvent avoir du mal à comprendre des nuances subtiles, du sarcasme ou du langage figuratif.
  • Précision factuelle
    • Les LLM génèrent des réponses à partir des informations qu'ils ont apprises des ensembles de données d'entraînement, mais ce ne sont pas des bases de connaissances. Elles peuvent générer des déclarations factuelles incorrectes ou obsolètes ;
  • Sens commun
    • Les LLM s'appuient sur des modèles statistiques liés au langage. Ils pourraient manquer capacité à appliquer le raisonnement de bon sens dans certaines situations.

Considérations et risques éthiques

Le développement des grands modèles de langage (LLM) soulève plusieurs problèmes éthiques. Pour créer un modèle ouvert, nous avons soigneusement pris en compte les éléments suivants:

  • Biais et équité
    • Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter les préjugés socio-culturels intégrés dans les supports de formation. Ces modèles a fait l'objet d'un examen approfondi, le prétraitement des données d'entrée décrit et les évaluations ultérieures présentées sur cette fiche.
  • Désinformation et usage abusif
    • Les LLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou dangereux.
    • Des consignes sont fournies pour une utilisation responsable avec le modèle. Consultez les IA générative responsable kit d'outils.
  • Transparence et responsabilité
    • Cette fiche de modèle résume les détails de l'architecture les capacités, les limites et les processus d'évaluation.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.

Risques identifiés et atténuation:

  • Perpétuation des biais:il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'examens manuels) et d'exploration de la suppression des biais pendant l'entraînement du modèle, l'affinage et d'autres cas d'utilisation.
  • Génération de contenus nuisibles:mécanismes et consignes concernant les contenus la sécurité sont essentiels. Nous encourageons les développeurs à faire preuve de prudence mettre en place les mesures de sécurité appropriées, en fonction règles relatives aux produits et cas d'utilisation d'applications.
  • Usage abusif à des fins malveillantes:limites techniques et la sensibilisation des utilisateurs finaux peut aider à limiter les applications malveillantes des LLM. Les ressources pédagogiques et les mécanismes de signalement permettant aux utilisateurs de signaler les usages abusifs sont fournies. Les utilisations interdites des modèles Gemma sont décrites dans nos Conditions d'utilisation utiliser.
  • Non-respect de la confidentialité:les modèles ont été entraînés avec les données filtrées pour la suppression des Informations permettant d'identifier personnellement l'utilisateur. Nous encourageons les développeurs respecter les réglementations sur la confidentialité avec des techniques protégeant la confidentialité.

Utilisation prévue

Application

Les grands modèles de langage ouverts (LLM) ont un large éventail d'applications dans divers secteurs et domaines. La liste d'utilisations potentielles suivante n'est pas complètes. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles envisagés par les créateurs du modèle dans le cadre du modèle la formation et le développement.

  • Création de contenus et communication
    • Génération de texte:ces modèles permettent de générer du texte de création. formats tels que des poèmes, des scripts, du code, des textes marketing, des brouillons d'e-mails, etc.
    • Chatbots et IA conversationnelle:optimisez les interfaces de conversation pour un service client, des assistants virtuels ou des applications interactives.
    • Synthèse de texte:générez des résumés concis d'un corpus de texte, des rapports de recherche ou des rapports.
  • Recherche et enseignement
    • Recherche sur le traitement du langage naturel (TLN):ces modèles peuvent servir pour permettre aux chercheurs d'expérimenter les techniques de TLN, développer des algorithmes et contribuer aux avancées dans ce domaine.
    • Outils d'apprentissage des langues:favorisez l'apprentissage interactif des langues. en facilitant la correction grammaticale ou en s'entraînant à écrire.
    • Exploration des connaissances:aidez les chercheurs à explorer de grands corps. de texte en générant des résumés ou en répondant à des questions sur des sujets.

Avantages

Au moment de sa publication, cette famille de modèles fournit des modèles de grands implémentations de modèles de langage conçues dès le départ pour développement d'IA par rapport à des modèles de taille similaire.

À l'aide des métriques d'évaluation des benchmarks décrites dans ce document, ces modèles ont démontré des performances supérieures à celles d'autres modèles ouverts de taille comparable alternatives.

En particulier, les modèles RecurrentGemma atteignent des performances comparables à celles de Gemma. mais sont plus rapides lors de l'inférence et nécessitent moins de mémoire, en particulier de longues séquences.