RecurrentGemma

RecurrentGemma یک مدل باز مبتنی بر گریفین است، یک معماری مدل ترکیبی که تکرارهای خطی دروازه‌ای را با توجه به پنجره کشویی محلی ترکیب می‌کند.

مانند Gemma، RecurrentGemma برای انواع وظایف تولید متن، از جمله پاسخ به سؤال، خلاصه‌سازی و استدلال مناسب است. با این حال، معماری منحصر به فرد RecurrentGemma مزایای اضافی زیر را ارائه می دهد:

  • نیازهای کمتر به حافظه امکان تولید نمونه های طولانی تری را در دستگاه هایی با حافظه محدود، مانند واحدهای گرافیکی یا CPU، فراهم می کند.
  • RecurrentGemma می‌تواند استنتاج را در اندازه‌های دسته‌ای به‌طور قابل‌توجهی بالاتر انجام دهد، به این معنی که می‌تواند توکن‌های بیشتری را در هر ثانیه تولید کند - به‌ویژه هنگام تولید دنباله‌های طولانی.
  • RecurrentGemma با عملکرد Gemma مطابقت دارد در حالی که به حافظه کمتری نیاز دارد و به استنتاج سریع‌تر می‌رسد.

منابع بیشتر

کارت مدل RecurrentGemma حاوی اطلاعات دقیق در مورد مدل، اطلاعات پیاده سازی، اطلاعات ارزیابی، استفاده از مدل و محدودیت ها و موارد دیگر است.
کدهای بیشتر، نوت بوک های Colab، اطلاعات و بحث های مربوط به RecurrentGemma را در Kaggle مشاهده کنید.
نمونه نوت بوک های Colab را برای JAX و PyTorch در GitHub اجرا کنید.