RecurrentGemma
RecurrentGemma est un modèle ouvert basé sur Griffin, un modèle hybride qui combine des récurrences linéaires contrôlées et l'attention sur une fenêtre glissante locale.
Comme Gemma, RecurrentGemma est parfaitement adapté à diverses tâches de génération de texte, comme la réponse à des questions, la synthèse et le raisonnement. Cependant, l'architecture unique de RecurrentGemma offre les avantages supplémentaires suivants:
-
Réduction de l'utilisation de la mémoire
Des exigences de mémoire réduites permettent de générer des échantillons plus longs sur les appareils disposant d'une mémoire limitée, comme les GPU ou les processeurs uniques. -
Débit plus élevé
RecurrentGemma peut effectuer des inférences à des tailles de lot nettement plus élevées, ce qui signifie qu'il peut générer beaucoup plus de jetons par seconde, en particulier lorsqu'il génère de longues séquences. -
Hautes performances
RecurrentGemma profite des performances de Gemma tout en nécessitant moins de mémoire et en accélérant l'inférence.