صفحه مدل: RecurrentGemma
منابع و مستندات فنی:
شرایط استفاده: شرایط
نویسندگان: گوگل
اطلاعات مدل
خلاصه مدل
توضیحات
RecurrentGemma یک خانواده از مدلهای زبان باز است که بر اساس معماری تکرارشونده جدیدی که در Google توسعه یافته است، ساخته شدهاند. هر دو نسخه از پیش آموزش دیده و تنظیم شده به زبان انگلیسی در دسترس هستند.
مانند Gemma، مدلهای RecurrentGemma برای انواع وظایف تولید متن، از جمله پاسخ به سؤال، خلاصهسازی و استدلال مناسب هستند. RecurrentGemma به دلیل معماری جدید خود به حافظه کمتری نسبت به Gemma نیاز دارد و هنگام تولید دنباله های طولانی به استنتاج سریع تری می رسد.
ورودی ها و خروجی ها
- ورودی: رشته متن (مثلاً یک سؤال، یک درخواست یا سندی که باید خلاصه شود).
- خروجی: متن انگلیسی زبان در پاسخ به ورودی (به عنوان مثال، پاسخ به سؤال، خلاصه ای از سند) ایجاد می شود.
نقل قول
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
داده های مدل
مجموعه داده های آموزشی و پردازش داده ها
RecurrentGemma از همان داده های آموزشی و پردازش داده استفاده می کند که توسط خانواده مدل Gemma استفاده می شود. توضیحات کامل را می توان در کارت مدل Gemma یافت.
اطلاعات پیاده سازی
سخت افزار و چارچوب های مورد استفاده در طول آموزش
RecurrentGemma مانند Gemma در TPUv5e با استفاده از JAX و ML Pathways آموزش داده شد.
اطلاعات ارزیابی
نتایج محک
رویکرد ارزشیابی
این مدل ها در برابر مجموعه بزرگی از مجموعه داده ها و معیارهای مختلف برای پوشش جنبه های مختلف تولید متن مورد ارزیابی قرار گرفتند:
نتایج ارزیابی
معیار | متریک | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5-شات، بالا-1 | 38.4 | 60.5 |
هلاسواگ | 0-شات | 71.0 | 80.4 |
PIQA | 0-شات | 78.5 | 81.3 |
SocialIQA | 0-شات | 51.8 | 52.3 |
BoolQ | 0-شات | 71.3 | 80.3 |
وینوگرند | نمره جزئی | 67.8 | 73.6 |
CommonsenseQA | 7-شات | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5-شات | 52.5 | 70.5 |
سوالات طبیعی | 5-شات | 11.5 | 21.7 |
HumanEval | پاس@1 | 21.3 | 31.1 |
MBPP | 3-شات | 28.8 | 42.0 |
GSM8K | maj@1 | 13.4 | 42.6 |
ریاضی | 4-شات | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
میانگین | 44.6 | 56.1 |
اخلاق و ایمنی
ارزیابی های اخلاقی و ایمنی
رویکرد ارزیابی ها
روشهای ارزیابی ما شامل ارزیابیهای ساختاریافته و آزمایشهای داخلی قرمز از خطمشیهای محتوای مرتبط است. Red-teaming توسط تعدادی تیم مختلف انجام شد که هر کدام اهداف و معیارهای ارزیابی انسانی متفاوتی داشتند. این مدل ها بر اساس تعدادی از مقوله های مختلف مرتبط با اخلاق و ایمنی مورد ارزیابی قرار گرفتند، از جمله:
- ایمنی محتوای متن به متن: ارزیابی انسانی در مورد درخواستهای مربوط به سیاستهای ایمنی از جمله سوء استفاده و بهرهکشی جنسی از کودکان، آزار و اذیت، خشونت و بدگویی، و سخنان مشوق تنفر.
- آسیب های بازنمایی متن به متن: معیاری در برابر مجموعه داده های دانشگاهی مرتبط مانند WinoBias و BBQ Dataset.
- حفظ کردن: ارزیابی خودکار حفظ داده های آموزشی، از جمله خطر قرار گرفتن در معرض اطلاعات شخصی قابل شناسایی.
- آسیب در مقیاس بزرگ: آزمایشهایی برای «قابلیتهای خطرناک» مانند خطرات شیمیایی، بیولوژیکی، رادیولوژیکی و هستهای (CBRN). و همچنین آزمون هایی برای متقاعدسازی و فریب، امنیت سایبری و تکرار مستقل.
نتایج ارزیابی
نتایج ارزیابیهای اخلاقی و ایمنی در آستانههای قابل قبولی برای رعایت سیاستهای داخلی برای مقولههایی مانند ایمنی کودک، ایمنی محتوا، آسیبهای بازنمایی، حفظ کردن، آسیبهای در مقیاس بزرگ قرار دارد. در بالای ارزیابی های داخلی قوی، نتایج معیارهای ایمنی شناخته شده مانند BBQ، Winogender، WinoBias، RealToxicity و TruthfulQA در اینجا نشان داده شده است.
معیار | متریک | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | میانگین | 9.8 | 7.60 | 10.3 | 8.8 |
پررنگ | 39.3 | 52.3 | 39.8 | 47.9 | |
CrowS-Pairs | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ Ambig | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
BBQ Disambig | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
Winogender | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
سموم | 56.7 | 50.0 | 58.8 | 64.5 |
استفاده از مدل و محدودیت ها
محدودیت های شناخته شده
این مدل ها دارای محدودیت های خاصی هستند که کاربران باید از آنها آگاه باشند:
- داده های آموزشی
- کیفیت و تنوع داده های آموزشی به طور قابل توجهی بر قابلیت های مدل تأثیر می گذارد. سوگیری یا شکاف در داده های آموزشی می تواند منجر به محدودیت در پاسخ های مدل شود.
- دامنه مجموعه داده آموزشی حوزه های موضوعی را مشخص می کند که مدل می تواند به طور موثر اداره کند.
- بافت و پیچیدگی کار
- LLM ها در کارهایی که می توانند با اعلان ها و دستورالعمل های واضح چارچوب بندی شوند، بهتر عمل می کنند. کارهای باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
- عملکرد یک مدل می تواند تحت تأثیر مقدار زمینه ارائه شده قرار گیرد (زمینه طولانی تر به طور کلی منجر به خروجی های بهتر، تا یک نقطه خاص می شود).
- ابهام و تفاوت زبان
- زبان طبیعی ذاتاً پیچیده است. ممکن است LLM ها برای درک ظرایف ظریف، طعنه یا زبان مجازی تلاش کنند.
- دقت واقعی
- LLM ها بر اساس اطلاعاتی که از مجموعه داده های آموزشی خود آموخته اند، پاسخ ها را تولید می کنند، اما پایگاه های دانش نیستند. آنها ممکن است اظهارات واقعی نادرست یا قدیمی ایجاد کنند.
- عقل سلیم
- LLM ها بر الگوهای آماری زبان تکیه دارند. آنها ممکن است توانایی اعمال استدلال عقل سلیم را در موقعیت های خاص نداشته باشند.
ملاحظات و خطرات اخلاقی
توسعه مدلهای زبان بزرگ (LLM) چندین نگرانی اخلاقی را ایجاد میکند. در ایجاد یک مدل باز، موارد زیر را به دقت در نظر گرفته ایم:
- تعصب و انصاف
- LLM هایی که بر روی داده های متنی در مقیاس بزرگ و در دنیای واقعی آموزش دیده اند، می توانند سوگیری های اجتماعی-فرهنگی موجود در مطالب آموزشی را منعکس کنند. این مدلها تحت بررسی دقیق قرار گرفتند، پیش پردازش دادههای ورودی شرح داده شد و ارزیابیهای بعدی در این کارت گزارش شد.
- اطلاعات نادرست و سوء استفاده
- از LLM ها می توان برای تولید متن نادرست، گمراه کننده یا مضر استفاده کرد.
- دستورالعمل هایی برای استفاده مسئولانه با مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید.
- شفافیت و پاسخگویی
- این کارت مدل جزئیات معماری، قابلیتها، محدودیتها و فرآیندهای ارزیابی مدلها را خلاصه میکند.
- یک مدل باز توسعهیافته مسئولانه فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری LLM برای توسعهدهندگان و محققان در سراسر اکوسیستم هوش مصنوعی فراهم میکند.
خطرات شناسایی شده و اقدامات کاهشی:
- تداوم سوگیری ها: انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
- تولید محتوای مضر: مکانیسم ها و دستورالعمل هایی برای ایمنی محتوا ضروری است. توسعهدهندگان تشویق میشوند احتیاط کنند و بر اساس خطمشیهای خاص محصول و موارد استفاده از برنامه، پادمانهای ایمنی محتوای مناسب را اجرا کنند.
- استفاده نادرست برای اهداف مخرب: محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب LLM کمک کند. منابع آموزشی و مکانیسمهای گزارشدهی برای کاربران برای پرچمگذاری سوءاستفاده ارائه شده است. موارد استفاده ممنوع از مدل های Gemma در شرایط استفاده ما ذکر شده است.
- نقض حریم خصوصی: مدل ها بر روی داده های فیلتر شده برای حذف PII (اطلاعات شناسایی شخصی) آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.
استفاده مورد نظر
کاربرد
مدلهای زبان بزرگ باز (LLM) طیف گستردهای از کاربردها در صنایع و حوزههای مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند.
- تولید محتوا و ارتباط
- تولید متن: از این مدل ها می توان برای تولید قالب های متن خلاقانه مانند شعر، اسکریپت، کد، کپی بازاریابی، پیش نویس ایمیل و غیره استفاده کرد.
- رباتهای چت و هوش مصنوعی مکالمه: رابطهای مکالمه قدرتمند برای خدمات مشتری، دستیاران مجازی یا برنامههای تعاملی.
- خلاصهسازی متن: خلاصههای مختصری از مجموعه متن، مقالات پژوهشی یا گزارشها ایجاد کنید.
- تحقیق و آموزش
- تحقیقات پردازش زبان طبیعی (NLP): این مدلها میتوانند به عنوان پایهای برای محققان برای آزمایش تکنیکهای NLP، توسعه الگوریتمها و کمک به پیشرفت این حوزه عمل کنند.
- ابزارهای یادگیری زبان: از تجربیات یادگیری زبان تعاملی پشتیبانی می کند، به تصحیح دستور زبان یا ارائه تمرین نوشتن کمک می کند.
- کاوش دانش: به محققان در کاوش متن بزرگ با تولید خلاصه یا پاسخ دادن به سؤالاتی در مورد موضوعات خاص کمک کنید.
مزایا
در زمان عرضه، این خانواده از مدلها، پیادهسازیهای مدل زبان باز بزرگ با کارایی بالا را ارائه میکنند که از ابتدا برای توسعه هوش مصنوعی مسئول در مقایسه با مدلهای با اندازه مشابه طراحی شدهاند.
با استفاده از معیارهای ارزیابی معیار توصیف شده در این سند، این مدلها نشان دادهاند که عملکرد برتری نسبت به سایر جایگزینهای مدل باز با اندازه قابل مقایسه ارائه میدهند.
به طور خاص، مدلهای RecurrentGemma به عملکرد قابل مقایسه با مدلهای Gemma دست مییابند، اما در طول استنتاج سریعتر هستند و به حافظه کمتری نیاز دارند، مخصوصاً در دنبالههای طولانی.