بطاقة نموذج RecurrentGemma

صفحة النموذج: RecurrentGemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات الطراز

ملخّص النموذج

الوصف

RecurrentGemma هي مجموعة من النماذج اللغوية المفتوحة التي تم إنشاؤها على بنية متكررة جديدة تم تطويرها في Google. تتوفر كل من الإصدارين المُدرَّبين مسبقًا وغير المُعدَّلين باللغة الإنجليزية.

مثل Gemma، تناسب نماذج RecurrentGemma بشكل كبير مجموعة متنوعة من مهام إنشاء النصوص، بما في ذلك الإجابة على الأسئلة والتلخيص والاستنتاج. يتطلّب تطبيق RecurrentGemma استخدام بنية جديدة أقل من ذاكرة Gemma ويحقق استنتاجًا أسرع عند إنشاء تسلسلات طويلة.

المُدخلات والمُخرجات

  • الإدخال: سلسلة نصية (مثل سؤال أو طلب أو مستند سيتم تلخيصه).
  • الإخراج: تم إنشاء نص باللغة الإنجليزية استجابةً للإدخال (مثل إجابة على السؤال أو ملخّص للمستند).

معلومات الكتاب

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

بيانات النموذج

مجموعة بيانات التدريب ومعالجة البيانات

يستخدم RecurrentGemma بيانات التدريب ومعالجة البيانات نفسها التي تستخدمها مجموعة نماذج Gemma. ويمكن العثور على وصف كامل في بطاقة نموذج Gemma.

معلومات التنفيذ

الأجهزة وأُطر العمل المستخدمة أثناء التدريب

مثل Gemma، تم تدريب RecurrentGemma على TPUv5e، باستخدام JAX وML Pathways.

معلومات التقييم

نتائج قياس الأداء

نهج التقييم

تم تقييم هذه النماذج وفقًا لمجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية الجوانب المختلفة لإنشاء النص:

نتائج التقييم

مقياس الأداء المقياس RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 لقطات، أعلى 1 38.4 60.5
HellaSwag 0-لقطة 71.0 80.4
PIQA 0-لقطة 78.5 81.3
SocialIQA 0-لقطة 51.8 52.3
BoolQ 0-لقطة 71.3 80.3
WinoGrande نتيجة جزئية 67.8 73.6
CommonsenseQA 7 لقطات 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 لقطات 52.5 70.5
الأسئلة الطبيعية 5 لقطات 11.5 21.7
HumanEval Pass@1 21.3 31.1
MBPP 3 لقطات 28.8 42.0
بروتوكول GSM8K maj@1 13.4 42.6
MATH 4 لقطات 11.0 23.8
AGIEval 23.8 39.3
مقعد كبير 35.3 55.2
متوسطة 44.6 56.1

الأخلاقيات والأمان

الأخلاقيات وتقييمات السلامة

نهج التقييمات

وتشمل طرق التقييم التي نتّبعها التقييمات المهيكلة واختبار الفريق الأحمر الداخلي لسياسات المحتوى ذات الصلة. تم إجراء الفريق الأحمر بواسطة عدد من الفرق المختلفة، لكل منها أهداف ومقاييس تقييم بشري مختلفة. تم تقييم هذه النماذج وفقًا لعدد من الفئات المختلفة ذات الصلة بالأخلاقيات والسلامة، بما في ذلك:

  • أمان المحتوى الذي يتم تحويله إلى نصوص: يتضمّن هذا القسم تقييمًا يُجريه فريقنا على رسائل المطالبة التي تتناول سياسات الأمان، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم والتحرش والعنف والمحتوى الدموي والكلام الذي يحض على الكراهية.
  • الأضرار التمثيلية لتحويل النص إلى نص: يمكنك قياس الأداء بالمقارنة مع مجموعات البيانات الأكاديمية ذات الصلة، مثل WinoBias وBarset Dataset.
  • الحفظ: تقييم آلي لحفظ بيانات التدريب، بما في ذلك خطر الكشف عن معلومات تحديد الهوية الشخصية.
  • الضرر على نطاق واسع: اختبارات "الإمكانات الخطيرة"، مثل المخاطر الكيميائية والبيولوجية والإشعاعية والنووية (CBRN)، بالإضافة إلى اختبارات الإقناع والخداع والأمن الإلكتروني والنسخ الذاتي.

نتائج التقييم

تندرج نتائج تقييمات الأخلاقيات وتقييمات السلامة ضمن المعايير المقبولة لاستيفاء السياسات الداخلية لفئات مثل سلامة الأطفال وأمان المحتوى والأضرار التمثيلية والحفظ والأضرار الواسعة النطاق. إضافةً إلى التقييمات الداخلية القوية، يتم عرض نتائج مقاييس الأمان المعروفة هنا، مثل للشواء وWinogender وWinoBias وRealToxicity وTrthfulQA.

مقياس الأداء المقياس RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity المتوسط 9.8 7.60 10.3 8.8
غامق 39.3 52.3 39.8 47.9
أزواج الغربان top-1 41.1 43.4 38.7 39.5
حفلة شواء top-1 62.6 71.1 95.9 67.1
توضيح كيفية الشواء top-1 58.4 50.8 78.6 78.9
متعدد الجنس top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

استخدام النموذج وقيوده

القيود المعروفة

لهذه النماذج بعض القيود التي يجب أن يكون المستخدمون على دراية بها:

  • بيانات التدريب
    • تؤثر جودة وتنوع بيانات التدريب بشكل كبير على قدرات النموذج. يمكن أن تؤدي التحيزات أو الفجوات في بيانات التدريب إلى قيود في استجابات النموذج.
    • يحدد نطاق مجموعة بيانات التدريب مجالات الموضوع التي يمكن للنموذج التعامل معها بشكل فعال.
  • السياق وتعقيد المهمة
    • إنّ النماذج اللغوية الكبيرة أفضل في المهام التي يمكن وضعها في إطار طلبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المعقدة للغاية صعبة.
    • يمكن أن يتأثر أداء النموذج بحجم السياق الذي يتم تقديمه (يؤدي السياق الأطول بشكل عام إلى مخرجات أفضل، وصولاً إلى نقطة معيّنة).
  • الغموض والفوارق الدقيقة الخاصة باللغة
    • اللغة الطبيعية معقّدة بطبيعتها. قد تكافح النماذج اللغوية الكبيرة في فهم الفروق الطفيفة أو السخرية أو اللغة المجازية.
  • دقة الوقائع
    • تنشئ النماذج اللغوية الكبيرة ردودًا استنادًا إلى المعلومات التي تعلّمها من مجموعات بيانات التدريب، ولكنّها ليست قواعد معرفية. قد ينتج عنها بيانات وقائعية غير صحيحة أو قديمة.
  • المنطق السليم
    • تعتمد النماذج اللغوية الكبيرة على أنماط إحصائية في اللغة. قد يفتقرون إلى القدرة على تطبيق الاستنتاج المنطقي في مواقف معينة.

الاعتبارات والمخاطر الأخلاقية

إنّ تطوير النماذج اللغوية الكبيرة (LLM) يثير عدة مخاوف أخلاقية. عند إنشاء نموذج مفتوح، يتم أخذ ما يلي في الاعتبار بعناية:

  • الانحياز والإنصاف
    • يمكن للنماذج اللغوية الكبيرة المدربة على البيانات النصية الواسعة النطاق والواقعية أن تعكس الانحيازات الاجتماعية والثقافية المضمّنة في المواد التدريبية. خضعت هذه النماذج لتدقيق دقيق، وإدخال البيانات قبل المعالجة الموصوفة والتقييمات الخلفية الواردة في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة
    • تلخّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناته وقيوده وعمليات التقييم.
    • يتيح النموذج المفتوح الذي تم تطويره بشكلٍ مسؤول فرصة مشاركة الابتكار من خلال إتاحة تكنولوجيا "النموذج اللغوي الكبير" (LLM) للمطوّرين والباحثين على مستوى منظومة الذكاء الاصطناعي المتكاملة.

تحديد المخاطر وإجراءات الحدّ منها:

  • استمرار الانحياز: يجب إجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة التي يجريها فريق المراجعين) واستكشاف أساليب إزالة الانحياز أثناء تدريب النماذج والضبط الدقيق وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: تُعدّ الآليات والإرشادات المتعلّقة بأمان المحتوى أمرًا ضروريًا. ننصح المطوّرين بتوخي الحذر وتنفيذ إجراءات الوقاية المناسبة المتعلقة بأمان المحتوى استنادًا إلى سياسات المنتجات المحدّدة وحالات استخدام التطبيقات.
  • إساءة الاستخدام لأغراض ضارّة: يمكن أن تساعد القيود الفنية وتعليم المطوّرين والمستخدمين النهائيين على الحدّ من احتمالات التطبيقات الضارة للنماذج اللغوية الكبيرة. توفير موارد تعليمية وآليات إبلاغ تساعد المستخدمين في الإبلاغ عن حالات إساءة الاستخدام. يتم توضيح الاستخدامات المحظورة لنماذج Gemma في بنود الاستخدام لدينا.
  • انتهاكات الخصوصية: تم تدريب النماذج على البيانات التي تمت فلترتها لإزالة معلومات تحديد الهوية الشخصية (PII). ننصح المطوّرين بالالتزام بلوائح الخصوصية ذات الأساليب الخاصة بالحفاظ على الخصوصية.

الغرض من الاستخدام

طلب الانضمام

للنماذج اللغوية الكبيرة (LLM) مجموعة واسعة من التطبيقات في مختلف الصناعات والنطاقات. القائمة التالية للاستخدامات المحتملة ليست شاملة. تهدف هذه القائمة إلى توفير معلومات سياقية عن حالات الاستخدام المحتملة التي اعتبرها منشئو النماذج كجزء من تدريب النموذج وتطويره.

  • إنشاء المحتوى والتواصل معه
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء تنسيقات نصوص إبداعية، مثل القصائد والنصوص والرموز البرمجية والنصوص التسويقية ومسودّات الرسائل الإلكترونية وما إلى ذلك.
    • برامج تتبُّع المحادثات والذكاء الاصطناعي الحواري: يمكنك استخدام واجهات محادثة فعّالة لخدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية.
    • تلخيص النص: يمكنك إنشاء ملخّصات موجزة لمجموعة نصية أو أوراق بحثية أو تقارير.
  • البحث والتعليم
    • أبحاث معالجة اللغات الطبيعية (NLP): يمكن أن تعمل هذه النماذج كأساس للباحثين لتجربة تقنيات معالجة اللغات الطبيعية (NLP) وتطوير الخوارزميات والمساهمة في تطوير هذا المجال.
    • أدوات تعلّم اللغات: يمكنك الاستفادة من تجارب تعلّم اللغات التفاعلية والمساعدة في تصحيح القواعد النحوية أو التدرّب على الكتابة.
    • استكشاف المعرفة: يمكنك مساعدة الباحثين في استكشاف نُسخ كبيرة من النصوص من خلال إنشاء ملخّصات أو الإجابة عن أسئلة حول مواضيع محدّدة.

المزايا

في وقت إصدار هذه المجموعة، توفّر هذه المجموعة من النماذج عمليات تنفيذ لنماذج لغوية كبيرة ومفتوحة عالية الأداء تم تصميمها من البداية لتطوير الذكاء الاصطناعي بشكل مسؤول مقارنةً بالنماذج ذات الأحجام المشابهة.

باستخدام مقاييس تقييم المعايير الموضحة في هذا المستند، أثبتت هذه النماذج أنها توفر أداءً متفوقًا لبدائل النماذج المفتوحة الأخرى ذات الأحجام المشابهة.

وعلى وجه الخصوص، تحقّق نماذج RecurrentGemma أداءً مشابهًا لنماذج Gemma، ولكنها أسرع أثناء الاستنتاج وتتطلب ذاكرة أقل، خاصةً في التسلسلات الطويلة.