مدل های باز جما
خانواده ای از مدل های باز سبک وزن و پیشرفته که از همان تحقیقات و فناوری استفاده شده برای ایجاد مدل های Gemini ساخته شده اند.
معرفی کردن
جما 2
Gemma 2 که برای عملکرد بزرگ و کارایی بی بدیل دوباره طراحی شده است، برای استنتاج سریع بر روی سخت افزارهای مختلف بهینه سازی می کند.
5-شات
MMLU
معیار MMLU آزمونی است که وسعت دانش و توانایی حل مسئله به دست آمده توسط مدل های زبانی بزرگ را در طول پیش آموزش اندازه گیری می کند.
25-شات
ARC-C
معیار ARC-c زیرمجموعه متمرکزتری از مجموعه داده ARC-e است که فقط شامل سؤالاتی است که توسط الگوریتمهای رایج (پایه بازیابی و همروی کلمه) به اشتباه پاسخ داده شده است.
5-شات
GSM8K
معیار GSM8K توانایی یک مدل زبان را برای حل مسائل ریاضی در سطح مدرسه که اغلب به چندین مرحله استدلال نیاز دارند، آزمایش می کند.
3-5-شات
AGIEval
معیار AGIEval هوش عمومی یک مدل زبان را با استفاده از سؤالات مشتق شده از آزمون های دنیای واقعی که برای ارزیابی توانایی های فکری انسان طراحی شده اند، آزمایش می کند.
3-شات، CoT
BBH
معیار BBH (BIG-Bench Hard) بر روی کارهایی تمرکز دارد که فراتر از تواناییهای مدلهای زبان فعلی تلقی میشوند و محدودیتهای آنها را در حوزههای استدلال و درک مختلف آزمایش میکنند.
3-شات، F1
رها کردن
DROP یک معیار درک مطلب است که به استدلال گسسته روی پاراگراف ها نیاز دارد.
5-شات
وینوگراند
معیار Winogrande توانایی یک مدل زبان را برای حل تکالیف مبهم پر کردن خالی با گزینههای باینری، که نیاز به استدلال عام عمومی دارد را آزمایش میکند.
10-شات
هلاسواگ
معیار HellaSwag با انتخاب منطقی ترین پایان یک داستان، توانایی یک مدل زبان در درک و به کارگیری استدلال عقل سلیم را به چالش می کشد.
4-شات
ریاضی
MATH توانایی یک مدل زبان را برای حل مسائل پیچیده کلمه ریاضی که نیاز به استدلال، حل مسئله چند مرحله ای و درک مفاهیم ریاضی دارد، ارزیابی می کند.
0-شات
ARC-e
معیار ARC-e مهارتهای پیشرفتهی پاسخگویی به سؤالات یک مدل زبان را با سؤالات علمی چندگزینهای واقعی در سطح کلاسمدرسه آزمایش میکند.
0-شات
PIQA
معیار PIQA توانایی یک مدل زبان را برای درک و به کارگیری دانش عام فیزیکی با پاسخ دادن به سؤالاتی در مورد تعاملات فیزیکی روزمره آزمایش می کند.
0-شات
SIQA
معیار SIQA درک یک مدل زبان از تعاملات اجتماعی و عقل سلیم اجتماعی را با پرسیدن سؤالاتی در مورد اقدامات افراد و پیامدهای اجتماعی آنها ارزیابی می کند.
0-شات
بولق
معیار BoolQ توانایی یک مدل زبان را برای پاسخ دادن به سوالات بله/خیر طبیعی آزمایش میکند و توانایی مدلها را برای انجام وظایف استنتاج زبان طبیعی در دنیای واقعی آزمایش میکند.
5-شات
TriviaQA
معیار TriviaQA مهارت های درک مطلب را با سه برابر پرسش-پاسخ-شواهد تست می کند.
5-شات
NQ
معیار NQ (سوالات طبیعی) توانایی یک مدل زبان را برای یافتن و درک پاسخها در کل مقالات ویکیپدیا، شبیهسازی سناریوهای پاسخگویی به پرسش در دنیای واقعی، آزمایش میکند.
پاس@1
HumanEval
معیار HumanEval با ارزیابی اینکه آیا راهحلهای آن آزمونهای واحد عملکردی را برای مشکلات برنامهنویسی قبول میکنند، تواناییهای تولید کد یک مدل زبان را آزمایش میکند.
3-شات
MBPP
معیار MBPP توانایی یک مدل زبان را برای حل مشکلات اساسی برنامه نویسی پایتون، با تمرکز بر مفاهیم اساسی برنامه نویسی و استفاده از کتابخانه استاندارد، آزمایش می کند.
100%
75%
50%
25%
0%
100%
75%
50%
25%
0%
جما 1
2.5B
جما 2
2.6B
میسترال
7B
LLAMA 3
8B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
LLAMA 3
8B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
LLAMA 3
8B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
LLAMA 3
8B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
LLAMA 3
8B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
LLAMA 3
8B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
LLAMA 3
8B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
LLAMA 3
8B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
جما 1
7B
جما 2
9B
جما 2
27B
جما 1
2.5B
جما 2
2.6B
میسترال
7B
جما 1
7B
جما 2
9B
جما 2
27B
*اینها معیارهای مدل های از پیش آموزش دیده هستند، برای جزئیات عملکرد با روش های دیگر به گزارش فنی مراجعه کنید.