بطاقة نموذج RecurrentGemma

صفحة النموذج: RecurrentGemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات الطراز

ملخّص النموذج

الوصف

‫RecurrentGemma هي مجموعة من نماذج اللغة المتاحة للجميع والمستندة إلى بنية جديد متكرّر تم تطويرها في Google. يتوفّر كل من الإصدارات المدربة مسبقًا والإصدارات المُعدّة وفقًا للتعليمات باللغة الإنجليزية.

مثل Gemma، نماذج RecurrentGemma مناسبة تمامًا لمجموعة متنوعة من مهام إنشاء النصوص، بما في ذلك الإجابة عن الأسئلة والتلخيص والاستدلال. بسبب بنيته الجديدة، تتطلّب RecurrentGemma ذاكرة أقل من Gemma وتحقق استنتاجًا أسرع عند إنشاء تسلسلات طويلة.

المدخلات والمخرجات

  • الإدخال: سلسلة نصية (مثل سؤال أو طلب أو مستند ليتم تلخيصه)
  • الإخراج: نص تم إنشاؤه باللغة الإنجليزية استجابةً للنص الذي أدخلته (مثل إجابة عن السؤال أو ملخّص للمستند).

معلومات الكتاب

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

بيانات الطراز

مجموعة بيانات التدريب ومعالجة البيانات

يستخدم RecurrentGemma بيانات التدريب ومعالجة البيانات نفسها المستخدَمة في مجموعة نماذج Gemma. يمكن العثور على وصف كامل في بطاقة ملف نموذج Gemma.

معلومات التنفيذ

الأجهزة وأطر العمل المستخدَمة أثناء التدريب

مثل Gemma، تم تدريب RecurrentGemma على TPUv5e، باستخدام JAX وML Pathways.

معلومات التقييم

نتائج قياس الأداء

منهج التقييم

تم تقييم هذه النماذج مقارنةً بمجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة من إنشاء النصوص:

نتائج التقييم

مقياس الأداء المقياس RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 لقطات، اللقطة الأولى 38.4 60.5
HellaSwag طلب بلا مثال 71.0 80.4
PIQA طلب بلا مثال 78.5 81.3
SocialIQA طلب بلا مثال 51.8 52.3
BoolQ طلب بلا مثال 71.3 80.3
WinoGrande نتيجة جزئية 67.8 73.6
CommonsenseQA 7 لقطات 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 لقطات 52.5 70.5
الأسئلة الطبيعية 5 لقطات 11.5 21.7
HumanEval pass@1 21.3 31.1
MBPP 3 لقطات 28.8 42.0
GSM8K maj@1 13.4 42.6
MATH لقطة من 4 صور 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
متوسط 44.6 56.1

الأخلاق والسلامة

تقييمات الأخلاق والسلامة

نهج التقييمات

تشمل طرق التقييم التي نتّبعها تقييمات منظَّمة واختبارات داخلية لفريق الاختراق (Red Team) بشأن سياسات المحتوى ذات الصلة. تم تنفيذ أسلوب "الفريق الأحمر" من قِبل عدد من الفِرق المختلفة، ولكل فريق أهداف ومقاييس تقييم بشرية مختلفة. تم تقييم هذه التصاميم بالاستناد إلى عدد من الفئات المختلفة ذات الصلة بالأخلاق والسلامة، بما في ذلك:

  • سلامة المحتوى النصي إلى النصي: تقييم بشري للطلبات التي تغطي سياسات السلامة، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم والتحرش والعنف والمشاهد الدموية والكلام الذي يحض على الكراهية
  • الأضرار الناتجة عن التمثيل النصي إلى النصي: يمكنك مقارنة الأداء بمجموعة قياسية من مجموعات بيانات الأكاديميين ذات الصلة، مثل WinoBias وBBQ Dataset.
  • الحفظ: تقييم آلي لحفظ بيانات التدريب، بما في ذلك خطر تعريض معلومات تحديد الهوية الشخصية
  • الضرر على نطاق واسع: اختبارات "القدرات الخطيرة"، مثل المخاطر الكيميائية والبيولوجية والإشعاعية والنووية (CBRN)، بالإضافة إلى اختبارات الإقناع والخداع والأمن السيبراني والتكرار التلقائي

نتائج التقييم

تقع نتائج تقييمات الأخلاق والسلامة ضمن الحدود المقبولة لاستيفاء السياسات الداخلية لفئات مثل سلامة الأطفال وسلامة المحتوى والأضرار الناتجة عن المحتوى المرئي والتذكّر والأضرار على نطاق واسع. بالإضافة إلى التقييمات الداخلية القوية، يتم عرض نتائج مقاييس السلامة المعروفة، مثل BBQ وWinogender وWinoBias وRealToxicity وTruthfulQA.

مقياس الأداء المقياس RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity متوسط 9.8 7.60 10.3 8.8
BOLD 39.3 52.3 39.8 47.9
CrowS-Pairs top-1 41.1 43.4 38.7 39.5
BBQ Ambig top-1 62.6 71.1 95.9 67.1
BBQ Disambig top-1 58.4 50.8 78.6 78.9
Winogender top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

استخدام النماذج والقيود المفروضة عليها

القيود المعروفة

لهذه النماذج قيود معيّنة يجب أن يكون المستخدمون على دراية بها:

  • بيانات التدريب
    • تؤثر جودة بيانات التدريب وتنوعها بشكلٍ كبير في إمكانات النموذج. يمكن أن تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى محدودية في ردود النموذج.
    • يحدّد نطاق مجموعة بيانات التدريب المواضيع التي يمكن للنموذج التعامل معها بفعالية.
  • مدى تعقيد السياق والمهام
    • تُحقّق النماذج اللغوية الكبيرة أداءً أفضل في المهام التي يمكن صياغة طلبات وتعليمات واضحة لها. قد تكون المهام المفتوحة أو المهام المعقدة للغاية صعبة.
    • يمكن أن يتأثر أداء النموذج بكمية السياق المقدَّمة (يؤدي السياق الأطول بشكل عام إلى نتائج أفضل، إلى حدٍ معين).
  • التفاوت في اللغة والتفاصيل الدقيقة
    • اللغة الطبيعية معقّدة بطبيعتها. قد تواجه النماذج اللغوية الكبيرة صعوبة في فهم الاختلافات الدقيقة أو السخرية أو اللغة المجازية.
  • دقة الحقائق
    • تنشئ النماذج اللغوية الكبيرة الردود استنادًا إلى المعلومات التي اكتسبتها من مجموعات البيانات التدريبية، ولكنها ليست قواعد معرفة. وقد تنشئ هذه المراجع بيانات وقائعية غير صحيحة أو قديمة.
  • الحسّ السليم
    • تعتمد النماذج اللغوية الكبيرة على الأنماط الإحصائية في اللغة. قد لا يكون لديهم القدرة على تطبيق المنطق السليم في حالات معيّنة.

الاعتبارات الأخلاقية والمخاطر

يثير تطوير النماذج اللغوية الكبيرة (LLM) العديد من المخاوف الأخلاقية. عند إنشاء نموذج مفتوح، أخذنا في الاعتبار ما يلي بعناية:

  • الانحياز والعدالة
    • يمكن أن تعكس النماذج اللغوية الكبيرة التي تم تدريبها على بيانات نصية واسعة النطاق من العالم الواقعي الانحيازات الاجتماعية والثقافية المضمّنة في مادة التدريب. خضعَت هذه النماذج لفحص دقيق ومعالجة مسبقة لبيانات الإدخال كما هو موضّح في التقييمات اللاحقة المُدرَجة في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة
    • تلخِّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناتها والقيود المفروضة عليها وعمليات التقييم.
    • يقدّم النموذج المفتوح الذي تم تطويره بشكل مسؤول فرصة لمشاركة الابتكار من خلال إتاحة تكنولوجيا النماذج اللغوية الكبيرة للمطوّرين و الباحثين في المنظومة المتكاملة للذكاء الاصطناعي.

المخاطر التي تم تحديدها والتدابير التي تم اتّخاذها للحدّ منها:

  • ترسيخ الانحيازات: ننصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النماذج وتحسينها وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: يجب توفير آليات وإرشادات للحفاظ على أمان المحتوى. ننصح المطوّرين بتوخي الحذر وتطبيق إجراءات الوقاية المناسبة لسلامة المحتوى استنادًا إلى سياسات المنتجات وحالات استخدام التطبيقات المحدّدة.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتدريب المطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارة للغة الآلية الضخمة. يتم توفير موارد تعليمية وآليات الإبلاغ للمستخدمين من أجل الإبلاغ عن إساءة الاستخدام. يمكنك الاطّلاع على بنود الاستخدام لمعرفة الاستخدامات المحظورة لنماذج Gemma.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات تحديد الهوية الشخصية (PII). ننصح المطوّرين بالالتزام باللوائح التنظيمية المتعلقة بالخصوصية باستخدام تقنيات الحفاظ على الخصوصية.

الغرض من الاستخدام

التطبيق

تُستخدم النماذج اللغوية الكبيرة المفتوحة (LLM) في مجموعة واسعة من التطبيقات في مختلف التخصصات والمجالات. إنّ القائمة التالية للاستخدامات المحتملة ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتمَلة التي أخذها صنّاع النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها.

  • إنشاء المحتوى والتواصل
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء تنسيقات إبداعية للنصوص، مثل القصائد والنصوص البرمجية والرموز والنصوص التسويقية ومسودات الرسائل الإلكترونية وما إلى ذلك.
    • الروبوتات المخصّصة للدردشة والذكاء الاصطناعي الحواري: يمكنك استخدام واجهات المحادثة لتحسين خدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية.
    • تلخيص النصوص: يمكنك إنشاء ملخّصات موجزة لنص أو أبحاث أو تقارير.
  • الأبحاث والتعليم
    • أبحاث معالجة اللغة الطبيعية: يمكن أن تُستخدم هذه النماذج كأساس يتيح للباحثين تجربة تقنيات معالجة اللغة الطبيعية، وتطوير الخوارزميات، والمساهمة في تطوير هذا المجال.
    • أدوات تعلُّم اللغة: تتيح تجارب تعلُّم اللغة التفاعلية، وتساعد في تصحيح الأخطاء النحوية أو توفير ممارسات للكتابة.
    • استكشاف المعرفة: مساعدة الباحثين في استكشاف مجموعات كبيرة من النصوص من خلال إنشاء ملخصات أو الإجابة عن أسئلة حول مواضيع معيّنة

المزايا

في وقت الإصدار، توفّر مجموعة النماذج هذه عمليات تنفيذ نماذج لغوية كبيرة مفتوحة عالية الأداء ومصمّمة من الألف إلى الياء لتطوير الذكاء الاصطناعي المسؤول مقارنةً بالنماذج ذات الحجم المماثل.

باستخدام مقاييس تقييم الأداء الموضّحة في هذا المستند، أظهرت هذه النماذج أنّها تحقّق أداءً أفضل من بدائل النماذج المفتوحة الأخرى ذات الحجم المماثل.

وعلى وجه التحديد، تحقّق نماذج RecurrentGemma أداءً مشابهًا لنماذج Gemma ، ولكنها أسرع أثناء الاستنتاج وتتطلّب ذاكرة أقل، خاصةً في أثناء التعامل مع تسلسلات طويلة.