بطاقة نموذج RecurrentGemma

صفحة النموذج: RecurrentGemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات الطراز

ملخّص النموذج

الوصف

RecurrentGemma هي مجموعة من النماذج اللغوية المفتوحة التي تم إنشاؤها استنادًا إلى بنية متكررة جديدة تم تطويرها في Google. يتوفر كل من الإصدارين المدرّبين مسبقًا والمزود بتعليمات باللغة الإنجليزية.

مثل جيما، تناسب نماذج RecurrentGemma مجموعة متنوعة من مهام إنشاء النص، بما في ذلك الإجابة على الأسئلة والتلخيص والتفكير. تتطلب لعبة RecurrentGemma ذاكرة أقل من Gemma وبنيتها الجديدة، وتحقِّق استنتاجًا أسرع عند إنشاء تسلسلات طويلة.

المُدخلات والمخرجات

  • إدخال: سلسلة نصية (مثل سؤال أو طلب أو مستند مطلوب تلخيصه).
  • الإخراج: نص يتم إنشاؤه باللغة الإنجليزية ردًا على الإدخال (مثل إجابة عن سؤال أو ملخّص للمستند).

معلومات الكتاب

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

بيانات النموذج

مجموعة بيانات التدريب ومعالجة البيانات

تستخدم RecurrentGemma بيانات التدريب ومعالجة البيانات نفسها التي تستخدمها عائلة نماذج جيما. ويمكن العثور على وصف كامل على بطاقة نموذج Gemma.

معلومات عن عملية التنفيذ

الأجهزة وأطر العمل المستخدمة أثناء التدريب

ومثل Gemma، تم تدريب RecurrentGemma على TPUv5e واستخدام JAX وML Pathways.

معلومات التقييم

النتائج المعيارية

نهج التقييم

تم تقييم هذه النماذج مقابل مجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة لإنشاء النص:

نتائج التقييم

مقياس الأداء المقياس ألبوم RecurrentGemma 2B
MMLU 5 لقطات، أعلى 1 38.4
HellaSwag 0 لقطة 71.0
PIQA 0 لقطة 78.5
SocialIQA 0 لقطة 51.8
BoolQ 0 لقطة 71.3
WinoGrande النتيجة الجزئية 67.8
CommonsenseQA 7 لقطات 63.7
OpenBookQA 47.2
نظام ARC-e 72.9
السلسلة المستلَمة المصدق عليها (ARC-c) 42.3
TriviaQA 5 لقطات 52.5
الأسئلة الطبيعية 5 لقطات 11.5
HumanEval Pass@1 21.3
MBPP 3 لقطات 28.8
GSM8K maj@1 13.4
MATH 4 لقطات 11.0
AGIEval 23.8
BIG-Bench 35.3
متوسط 44.6

الأخلاقيات والسلامة

الأخلاقيات وتقييمات السلامة

أسلوب التقييمات

تشمل طرق التقييم التي نتّبعها التقييمات المنظَّمة والاختبار الداخلي من فريق أحمر اللون لسياسات المحتوى ذات الصلة. تم إجراء فريق أحمر من قبل عدد من الفرق المختلفة، لكل منها أهداف مختلفة ومقاييس تقييم أشخاص. وتم تقييم هذه النماذج وفقًا لعدد من الفئات المختلفة ذات الصلة بالأخلاقيات والسلامة، بما في ذلك:

  • سلامة المحتوى المُحوِّل من نص إلى نص: يُجري فريقنا تقييمًا ليليًا على الطلبات التي تتناول سياسات الأمان، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم والتحرش والعنف والمحتوى الدموي والكلام الذي يحض على الكراهية.
  • الأضرار التمثيلية الناتجة عن تحويل النص إلى نص: هي إجراء مقارنة بمجموعات البيانات الأكاديمية ذات الصلة، مثل WinoBias وShopify Dataset.
  • الحفظ: التقييم المبرمَج لحفظ بيانات التدريب، بما في ذلك خطر الكشف عن معلومات تحديد الهوية الشخصية
  • الضرر الواسع النطاق: اختبارات لرصد "الإمكانات الخطيرة"، مثل المخاطر الكيميائية والبيولوجية والإشعاعية والنووية (CBRN)، بالإضافة إلى اختبارات حول الإقناع والخداع والأمن السيبراني والنسخ الذاتي

نتائج التقييم

وتكون نتائج تقييمات الأخلاقيات والسلامة ضمن الحدود المقبولة لاستيفاء السياسات الداخلية في ما يتعلق بفئات مثل سلامة الأطفال وسلامة المحتوى والضرر التمثيلي والتذكّر والأضرار الواسعة النطاق. بالإضافة إلى التقييمات الداخلية القوية، نعرض هنا نتائج مقاييس السلامة المعروفة، مثلشواء وWinogender وWinobias وRealToxicity وTruethfulQA.

مقياس الأداء المقياس ألبوم RecurrentGemma 2B شركة RecurrentGemma 2B لتكنولوجيا المعلومات
RealToxicity في المتوسط 9.8 7.6
غامق 39.3 52.4
أزواج الغربان top-1 41.1 43.4
BBQ Ambig top-1 62.6 71.1
BBQ Disambig top-1 58.4 50.8
Winogender top-1 55.1 54.7
TruthfulQA 35.1 42.7
وينوبياس 1_2 58.4 56.4
وينوبياس 2_2 90.0 75.4
اللغة السامة 56.7 50

استخدام النموذج والقيود المفروضة عليه

القيود المعروفة

تخضع هذه النماذج لقيود معينة يجب أن يكون المستخدمون على دراية بها:

  • بيانات التدريب
    • تؤثر جودة بيانات التدريب وتنوعها بشكل كبير في قدرات النموذج. يمكن أن تؤدي التحيزات أو الفجوات في بيانات التدريب إلى قيود في ردود النموذج.
    • يحدد نطاق مجموعة بيانات التدريب المجالات التي يمكن للنموذج التعامل معها بشكل فعال.
  • تعقيد السياق والمهمة
    • تكون النماذج اللغوية الكبيرة أفضل في المهام التي يمكن تأطيرها بمطالبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المعقدة للغاية صعبة.
    • يمكن أن يتأثر أداء النموذج بحجم السياق المقدم (يؤدي السياق الأطول بشكل عام إلى مخرجات أفضل، حتى نقطة معينة).
  • غموض اللغة والفروقات الدقيقة
    • إن اللغة الطبيعية معقدة بطبيعتها. قد تواجه النماذج اللغوية الكبيرة صعوبة في فهم الفروق الدقيقة أو السخرية أو اللغة المجازية.
  • الدقة في الواقع
    • تنشئ النماذج اللغوية الكبيرة ردودًا استنادًا إلى المعلومات التي تعلّمتها من مجموعات البيانات التدريبية، لكنّها لا تشكّل قواعد معرفية. قد تنشئ بيانات وقائعية غير صحيحة أو قديمة.
  • العِلم السليم
    • تعتمد النماذج اللغوية الكبيرة على الأنماط الإحصائية في اللغة. قد يفتقرون إلى القدرة على تطبيق التفكير المنطقي في مواقف معينة.

الاعتبارات والمخاطر الأخلاقية

إنّ تطوير النماذج اللغوية الكبيرة (LLM) يثير العديد من المخاوف الأخلاقية. لإنشاء نموذج مفتوح، فكرنا في ما يلي بعناية:

  • الانحياز والإنصاف
    • إنّ النماذج اللغوية الكبيرة المدرَّبة على بيانات نصية واسعة النطاق في العالم الواقعي يمكن أن تعكس الانحيازات الاجتماعية والثقافية المضمّنة في مواد التدريب. خضعت هذه النماذج لفحص دقيق، حيث تم إدخال المعالجة المسبقة للبيانات والتقييمات اللاحقة التي تم الإبلاغ عنها في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة
    • تلخص بطاقة النموذج هذه تفاصيل بنية النماذج والقدرات والقيود وعمليات التقييم.
    • ويتيح النموذج المفتوح المطوَّر بشكل مسؤول الفرصة لمشاركة الابتكار من خلال إتاحة التكنولوجيا اللغوية الكبيرة (LLM) للمطورين والباحثين عبر منظومة الذكاء الاصطناعي (AI).

المخاطر التي تم تحديدها والتخفيف من حدتها:

  • استمرار الانحيازات:يُنصح بإجراء المراقبة المستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف أساليب إزالة الانحياز أثناء تدريب النماذج والضبط الدقيق وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: من الضروري وضع آليات وإرشادات لضمان أمان المحتوى. ننصح المطوّرين بتوخّي الحذر وتطبيق تدابير الوقاية المناسبة لأمان المحتوى استنادًا إلى سياسات منتجاتهم المحدّدة وحالات استخدام التطبيقات.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتعريف المطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارّة للنماذج اللغوية الكبيرة. يتم توفير مراجع تعليمية وآليات إبلاغ للمستخدمين للإبلاغ عن إساءة الاستخدام. تم توضيح الاستخدامات المحظورة لنماذج Gemma في بنود الاستخدام لدينا.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمّت فلترتها لإزالة معلومات تحديد الهوية الشخصية (PII). نشجِّع المطوّرين على الالتزام بلوائح الخصوصية باتّباع أساليب الحفاظ على الخصوصية.

الغرض من الاستخدام

طلب الانضمام

تقدّم النماذج اللغوية الكبيرة (LLM) مجموعة كبيرة من التطبيقات في مختلف المجالات والنطاقات. القائمة التالية من الاستخدامات المحتملة ليست شاملة. تهدف هذه القائمة إلى توفير معلومات سياقية حول حالات الاستخدام المحتملة التي اعتبرها منشئو النماذج جزءًا من تدريب وتطوير النماذج.

  • إنشاء المحتوى والتواصل
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء تنسيقات نصوص تصاميم الإعلانات، مثل القصائد والنصوص البرمجية والنصوص التسويقية ومسودّات الرسائل الإلكترونية وما إلى ذلك.
    • برامج تتبُّع المحادثات والذكاء الاصطناعي الحواري: واجهات محادثة تفاعلية يمكن استخدامها مع خدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية.
    • تلخيص النص: يمكنك إنشاء ملخّصات موجزة لمجموعة نصية أو أوراق بحثية أو تقارير.
  • البحث والتعليم
    • أبحاث معالجة اللغات الطبيعية (NLP):يمكن أن تكون هذه النماذج بمثابة أساس للباحثين لتجربة تقنيات معالجة اللغات الطبيعية وتطوير الخوارزميات والمساهمة في التطوّر في هذا المجال.
    • أدوات تعلّم اللغات: يوفّر هذا التطبيق تجارب تعلُّم تفاعلية لللغات أو تصحيح القواعد النحوية أو التدريب على الكتابة.
    • استكشاف المعرفة: تساعد الباحثين في استكشاف النصوص الكبيرة من خلال إنشاء ملخّصات أو الإجابة عن أسئلة حول مواضيع محدّدة.

المزايا

في وقت الإصدار، توفّر مجموعة النماذج هذه عمليات تنفيذ نماذج لغوية مفتوحة وعالية الأداء تم تصميمها من الألف إلى الياء لتطوير الذكاء الاصطناعي المسؤول مقارنةً بالنماذج ذات الأحجام المشابهة.

باستخدام مقاييس تقييم قياس الأداء الموضّحة في هذا المستند، أثبتت هذه النماذج أنّها توفّر أداءً أفضل لبدائل النماذج المفتوحة الأخرى ذات الحجم المشابه.

وعلى وجه الخصوص، تحقق نماذج RecurrentGemma أداءً مشابهًا لنماذج Gemma، ولكنها أسرع في عملية الاستنتاج وتتطلب ذاكرة أقل، خاصةً على التسلسلات الطويلة.