نماذج Gemma المفتوحة

مجموعة من النماذج الخفيفة والعصرية المفتوحة التي تم إنشاؤها من الأبحاث والتكنولوجيا نفسها المستخدمة في إنشاء نماذج Gemini

شعار Gemma model

مسؤولية التصميم

تتضمّن هذه النماذج تدابير سلامة شاملة، وتساعد في ضمان حلول الذكاء الاصطناعي المسؤولة والموثوقة من خلال مجموعات بيانات منظَّمة وأدوات تدقيق دقيقة.

شعار Gemma model

أداء غير مطابق من حيث الحجم

تحقّق نماذج Gemma نتائج قياس أداء استثنائية في أحجامها التي تبلغ 2 مليار و7 مليار، حتى أنّها تتفوق في الأداء على بعض النماذج المفتوحة الأكبر حجمًا.

شعار Gemma model

مرونة في إطار العمل

مع الإصدار 3.0 من Keras، يمكنك الاستفادة من توافق سلس مع JAX وTensorFlow وPyTorch، ما يتيح لك اختيار أطر العمل وتبديلها بسهولة بناءً على مهمتك.

مقاييس الأداء

وضعت Gemma شريطًا جديدًا للأداء المتطوّر حسب الحجم مقارنةً بالنماذج الرائجة، مثل Llama 2 وMistral 7B.

5 لقطات، أعلى 1

تنسيق MMLU

معيار MMLU هو اختبار يقيس اتساع المعرفة والقدرة على حل المشكلات التي تكتسبها النماذج اللغوية الكبيرة أثناء التدريب المسبق.

0-لقطة

HellaSwag

يتحدى مقياس HellaSwag قدرة النموذج اللغوي على فهم وتطبيق المنطق السليم من خلال اختيار النهاية الأكثر منطقية للقصة.

0-لقطة

شهادة PIQA

يختبر مقياس أداء PIQA قدرة النموذج اللغوي على فهم المنطق السليم وتطبيقه من خلال الإجابة عن أسئلة حول التفاعلات الجسدية اليومية.

0-لقطة

نظام SIQA

يقيّم معيار SIQA مدى فهم النموذج اللغوي للتفاعلات الاجتماعية والحس السليم الاجتماعي من خلال طرح أسئلة حول تصرفات الأشخاص وآثارها الاجتماعية.

0-لقطة

منطقية

يختبر مقياس أداء BoolQ قدرة النموذج اللغوي على الإجابة عن أسئلة نعم/لا تحدث بشكل طبيعي (يتم إنشاؤها في إعدادات غير مُطالب بها وغير مُقيَّدة)، وذلك من خلال اختبار قدرة النماذج على تنفيذ مهام استنتاج اللغة الطبيعية على أرض الواقع.

نتيجة جزئية

وينوجراند

يختبر مقياس أداء Winogrande قدرة النموذج اللغوي على حل مهام ملء الفراغات الغامضة باستخدام الخيارات الثنائية، ما يتطلب استدلالًا منطقيًا عامًا.

7 لقطات

CQA

يقيّم معيار CQA أداء النماذج اللغوية في الإجابة عن الأسئلة ذات الخيارات المتعددة، الأمر الذي يتطلب أنواعًا مختلفة من المعرفة البديهية.

بروتوكول OBQA

يقيّم "معيار OBQA" قدرة النموذج اللغوي على الإجابة عن الأسئلة المتقدّمة باستخدام الاستدلال المتعدّد الخطوات والمعرفة البديهية وفهم النص الغني، ويتم تصميم هذه النماذج بعد اختبارات الكتب المفتوحة.

تقنية "وقت تشغيل التطبيقات في Chrome" (ARC-e)

يختبر معيار ARC-e المهارات المتقدّمة للإجابة عن الأسئلة في النموذج اللغوي مع أسئلة علمية حقيقية من فئة خيارات متعددة على مستوى المدرسة الابتدائية.

ARC-c

معيار ARC-c هو مجموعة فرعية أكثر تركيزًا من مجموعة بيانات ARC-e، ولا يحتوي إلا على الأسئلة التي تمت الإجابة عنها بشكل غير صحيح من خلال الخوارزميات الشائعة (قاعدة استرجاعية وظهور الكلمات).

5 لقطات

TriviaQA

يختبر مقياس أداء TriviaQA مهارات فهم القراءة من خلال ثلاثة أضعاف الأدلة والأدلة على الأسئلة.

Pass@1

HumanEval

يختبر معيار HumanEval قدرات إنشاء الرموز البرمجية في نموذج لغوي من خلال تقييم ما إذا كانت حلوله تجتاز اختبارات الوحدة الوظيفية لمشكلات البرمجة.

3 لقطات

ميغابايت في PPP

يختبر معيار MBPP قدرة النموذج اللغوي على حل المشكلات الأساسية لبرمجة بايثون، مع التركيز على مفاهيم البرمجة الأساسية والاستخدام القياسي للمكتبة.

maj@1

بروتوكول GSM8K

يختبر معيار GSM8K قدرة النموذج اللغوي على حل المسائل الرياضية في مرحلة التعليم المدرسي والتي غالبًا ما تتطلب خطوات متعددة من الاستنتاج.

4 لقطات

MATH

يقيّم مقياس أداء MATH قدرة النموذج اللغوي على حل المسائل الكلامية المعقدة، ما يتطلب الاستنتاج وحل المسائل المتعددة الخطوات وفهم المفاهيم الرياضية.

AGIEval

يختبر مقياس أداء AGIEval الذكاء العام لنموذج لغوي من خلال استخدام أسئلة مشتقة من اختبارات حقيقية مصممة لتقييم القدرات الفكرية البشرية (امتحانات الدخول إلى الجامعات واختبارات القانون وما إلى ذلك).

BBH

ويركز معيار BBH (BIG-Bench Hard) على المهام التي تفوق قدرات النماذج اللغوية الحالية، واختبار حدودها عبر مختلف مجالات الاستنتاج والفهم.

100%

75%

50%

25%

‫0%

100%

75%

50%

25%

‫0%

Gemma

7(ب)

64.3

Gemma

2(ب)

42.3

ميسترال

7(ب)

62.5

LLAMA-2

13 (ب)

54.8

LLAMA-2

7(ب)

45.3

Gemma

7(ب)

81.2

Gemma

2(ب)

71.4

ميسترال

7(ب)

81.0

LLAMA-2

13 (ب)

80.7

LLAMA-2

7(ب)

77.2

Gemma

7(ب)

81.2

Gemma

2(ب)

77.3

ميسترال

7(ب)

82.2

LLAMA-2

13 (ب)

80.5

LLAMA-2

7(ب)

78.8

Gemma

7(ب)

51.8

Gemma

2(ب)

49.7

ميسترال

7(ب)

*47

LLAMA-2

13 (ب)

50.3

LLAMA-2

7(ب)

48.3

Gemma

7(ب)

83.2

Gemma

2(ب)

69.42

ميسترال

7(ب)

*83.2

LLAMA-2

13 (ب)

81.7

LLAMA-2

7(ب)

77.4

Gemma

7(ب)

72.3

Gemma

2(ب)

65.4

ميسترال

7(ب)

74.2

LLAMA-2

13 (ب)

72.8

LLAMA-2

7(ب)

69.2

Gemma

7(ب)

71.3

Gemma

2(ب)

65.3

ميسترال

7(ب)

66.3*

LLAMA-2

13 (ب)

67.3

LLAMA-2

7(ب)

57.8

Gemma

7(ب)

52.8

Gemma

2(ب)

47.8

ميسترال

7(ب)

52.2

LLAMA-2

13 (ب)

57.0

LLAMA-2

7(ب)

58.6

Gemma

7(ب)

81.5

Gemma

2(ب)

73.2

ميسترال

7(ب)

80.5

LLAMA-2

13 (ب)

77.3

LLAMA-2

7(ب)

75.2

Gemma

7(ب)

53.2

Gemma

2(ب)

42.06

ميسترال

7(ب)

54.9

LLAMA-2

13 (ب)

49.4

LLAMA-2

7(ب)

45.9

Gemma

7(ب)

63.4

Gemma

2(ب)

53.2

ميسترال

7(ب)

62.5

LLAMA-2

13 (ب)

79.6

LLAMA-2

7(ب)

72.1

Gemma

7(ب)

32.3

Gemma

2(ب)

22.0

ميسترال

7(ب)

26.2

LLAMA-2

13 (ب)

18.3

LLAMA-2

7(ب)

12.8

Gemma

7(ب)

44.4

Gemma

2(ب)

29.2

ميسترال

7(ب)

*40.2

LLAMA-2

13 (ب)

30.6

LLAMA-2

7(ب)

20.8

Gemma

7(ب)

46.4

Gemma

2(ب)

17.7

ميسترال

7(ب)

*35.4

LLAMA-2

13 (ب)

28.7

LLAMA-2

7(ب)

14.6

Gemma

7(ب)

24.3

Gemma

2(ب)

11.8

ميسترال

7(ب)

12.7

LLAMA-2

13 (ب)

3.9

LLAMA-2

7(ب)

2.5

Gemma

7(ب)

41.7

Gemma

2(ب)

24.2

ميسترال

7(ب)

*41.2

LLAMA-2

13 (ب)

39.1

LLAMA-2

7(ب)

29.3

Gemma

7(ب)

55.1

Gemma

2(ب)

35.2

ميسترال

7(ب)

*56.1

LLAMA-2

13 (ب)

39.4

LLAMA-2

7(ب)

32.6

*اطّلِع على التقرير الفني للحصول على تفاصيل حول الأداء مع أساليب أخرى.

التطوير المسؤول للذكاء الاصطناعي

المسئولية حسب التصميم

تم تدريب التطبيق مسبقًا على البيانات المنظّمة بعناية وتم ضبطهما للحفاظ على السلامة.

تقييم قوي وشفاف

تكشف التقييمات الشاملة وإعداد التقارير الشفافة عن قيود النموذج لاعتماد نهج مسؤول لكل حالة استخدام.

تعزيز التطوير المسؤول

تساعد مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول المطوّرين على تصميم وتنفيذ أفضل ممارسات الذكاء الاصطناعي بشكل مسؤول.

رمز Google Cloud

محسَّنة لخدمة Google Cloud

باستخدام نماذج Gemma المتوفّرة في Google Cloud، يمكنك تخصيص النموذج بشكلٍ كبير وفقًا لاحتياجاتك المحددة باستخدام أدوات Vertex AI المُدارة بالكامل أو خيار GKE المُدار ذاتيًا ونشره في بنية أساسية مرنة ومنخفضة التكلفة ومحسّنة باستخدام الذكاء الاصطناعي.

تسريع الأبحاث الأكاديمية باستخدام أرصدة Google Cloud

انتهى "برنامج الأبحاث الأكاديمية" مؤخرًا فترة تقديم الطلبات، حيث تم منح أرصدة Google Cloud لمساعدة الباحثين في توسيع آفاق الاكتشاف العلمي باستخدام نماذج Gemma. ونحن متحمسون لرؤية الأبحاث الرائدة التي تنشأ من هذه المبادرة.

يُرجى متابعتنا لمعرفة الفرص المستقبلية لتحسين أبحاثك باستخدام Google Cloud.

انضم إلى المنتدى

يمكنك التواصل واستكشاف معرفتك ومشاركتها مع مستخدمين آخرين في منتدى نماذج تعلُّم الآلة.