بطاقة نموذج RecurrentGemma

صفحة النموذج: RecurrentGemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات الطراز

ملخّص النموذج

الوصف

RecurrentGemma هي مجموعة من النماذج اللغوية المفتوحة القائمة على النوتات البنية الأساسية التي تم تطويرها في Google. كلاهما تتوفر إصدارات مدرَّبة مسبقًا ومُعدَّلة بتعليمات باللغة الإنجليزية.

على غرار Gemma، تناسب نماذج RecurrentGemma بشكل كبير مجموعة متنوعة من النصوص إنشاء المهام، بما في ذلك الإجابة على الأسئلة والتلخيص والاستنتاج. يتطلب تطبيق RecurrentGemma ذاكرة أقل من ذي قبل بفضل بنيته الجديدة جيما وتحقِّق استنتاجًا أسرع عند إنشاء تسلسلات طويلة.

المُدخلات والمُخرجات

  • الإدخال: سلسلة نصية (مثل سؤال أو طلب أو مستند مطلوب الملخصة).
  • الإخراج: يتم إنشاء نص باللغة الإنجليزية استجابةً للإدخال (على سبيل المثال، إجابة على السؤال، ملخص للوثيقة).

معلومات الكتاب

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

بيانات النموذج

مجموعة بيانات التدريب ومعالجة البيانات

تستخدم منصة RecurrentGemma بيانات التدريب ومعالجة البيانات نفسها التي يستخدمها مجموعة نماذج Gemma يمكن العثور على وصف كامل في نموذج Gemma بنجاح.

معلومات التنفيذ

الأجهزة وأُطر العمل المستخدمة أثناء التدريب

أعجبني Gemma، تم تدريب RecurrentGemma على TPUv5e باستخدام JAX وML المسارات:

معلومات التقييم

نتائج قياس الأداء

نهج التقييم

تم تقييم هذه النماذج مقابل مجموعة كبيرة من مجموعات البيانات المختلفة لتغطية الجوانب المختلفة لإنشاء النص:

نتائج التقييم

مقياس الأداء المقياس RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 لقطات، أعلى 1 38.4 60.5
HellaSwag 0-لقطة 71.0 80.4
PIQA 0-لقطة 78.5 81.3
SocialIQA 0-لقطة 51.8 52.3
BoolQ 0-لقطة 71.3 80.3
WinoGrande نتيجة جزئية 67.8 73.6
CommonsenseQA 7 لقطات 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 لقطات 52.5 70.5
الأسئلة الطبيعية 5 لقطات 11.5 21.7
HumanEval Pass@1 21.3 31.1
MBPP 3 لقطات 28.8 42.0
بروتوكول GSM8K maj@1 13.4 42.6
MATH 4 لقطات 11.0 23.8
AGIEval 23.8 39.3
مقعد كبير 35.3 55.2
متوسطة 44.6 56.1

الأخلاقيات والأمان

الأخلاقيات وتقييمات السلامة

نهج التقييمات

وتشمل طرق التقييم لدينا التقييمات المهيكلة والفريق الأحمر الداخلي اختبار سياسات المحتوى ذات الصلة تم إجراء الفريق الأحمر بواسطة عدد من فرق مختلفة، ولكل منها أهداف ومقاييس تقييم بشري مختلفة. هذه النماذج مقارنةً بعدد من الفئات المختلفة ذات الصلة الأخلاقيات والسلامة، بما في ذلك:

  • أمان المحتوى الذي يتم تحويله إلى نصوص: يعالج فريق من المراجعين الطلبات التي تغطي الأمان. السياسات، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم والتحرش والعنف والمحتوى الدموي الذي يحض على الكراهية والكلام الذي يحض على الكراهية
  • الأضرار التمثيلية المتعلّقة بتحويل النص إلى نص: يمكنك قياس الأداء بالمقارنة مع العناصر الأكاديمية ذات الصلة. مجموعات البيانات مثل WinoBias ومجموعة بيانات للشواء.
  • الحفظ: تقييم مبرمَج لحفظ بيانات التدريب بما في ذلك خطر الكشف عن معلومات التعريف الشخصية.
  • الضرر على نطاق واسع: اختبارات "الإمكانات الخطيرة"، مثل المواد الكيميائية المخاطر البيولوجية والإشعاعية والنووية (CBRN) بالإضافة إلى اختبارات والإقناع والخداع، والأمن السيبراني، والتكرار المستقل.

نتائج التقييم

نتائج تقييمات الأخلاقيات وتقييمات السلامة ضمن المعايير المقبولة للاجتماع داخلي السياسات عن فئات مثل سلامة الأطفال وأمان المحتوى والأضرار التمثيلية والحفظ والأضرار الواسعة النطاق. فضلاً عن التقييمات الداخلية القوية، نتائج معايير الأمان المعروفة مثل شواء وWinogender وWinoBias يتم عرض RealToxicity وTrthfulQA هنا.

مقياس الأداء المقياس RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity المتوسط 9.8 7.60 10.3 8.8
BOLD 39.3 52.3 39.8 47.9
أزواج الغربان top-1 41.1 43.4 38.7 39.5
حفلة شواء top-1 62.6 71.1 95.9 67.1
توضيح كيفية الشواء top-1 58.4 50.8 78.6 78.9
متعدد الجنس top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

استخدام النموذج وقيوده

القيود المعروفة

لهذه النماذج بعض القيود التي يجب أن يكون المستخدمون على دراية بها:

  • بيانات التدريب
    • تؤثر جودة وتنوع بيانات التدريب بشكل كبير لقدرات النموذج. يمكن أن تؤدي التحيزات أو الفجوات في بيانات التدريب إلى على القيود في استجابات النموذج.
    • ويحدد نطاق مجموعة بيانات التطبيق مجالات الموضوع التي سيستخدمها النموذج يمكنه التعامل معها بشكل فعال.
  • السياق وتعقيد المهمة
    • تكون النماذج اللغوية الكبيرة أفضل في المهام التي يمكن وضعها في إطار بمطالبات واضحة على التعليمات قد تكون المهام المفتوحة أو المعقدة للغاية صعبة.
    • يمكن أن يتأثر أداء النموذج بحجم السياق. المقدمة (يؤدي السياق الأطول بشكل عام إلى مخرجات أفضل، تصل إلى نقطة معينة).
  • الغموض والفوارق الدقيقة الخاصة باللغة
    • اللغة الطبيعية معقّدة بطبيعتها. قد يصعب على النماذج اللغوية الكبيرة فهم الفروق الدقيقة أو السخرية أو اللغة المجازية.
  • الدقة الواقعية
    • تنشئ النماذج اللغوية الكبيرة ردودًا استنادًا إلى المعلومات التي تعلّمَتها من التطبيق، لكنها ليست قواعد معرفية. قد ينشئون عبارات واقعية غير صحيحة أو قديمة
  • المنطق السليم
    • تعتمد النماذج اللغوية الكبيرة على أنماط إحصائية في اللغة. قد يفتقرون إلى القدرة على تطبيق الاستدلال المنطقي في مواقف معينة.

الاعتبارات والمخاطر الأخلاقية

إنّ تطوير النماذج اللغوية الكبيرة (LLM) يثير عدة مخاوف أخلاقية. عند إنشاء نموذج مفتوح، يتم أخذ ما يلي في الاعتبار بعناية:

  • الانحياز والإنصاف
    • يمكن أن تعكس النماذج اللغوية الكبيرة، التي تم تدريبها على بيانات نصية واسعة النطاق من واقع الحياة التحيزات الاجتماعية والثقافية المضمنة في المواد التدريبية. هذه النماذج خضعت لتدقيق دقيق، والمعالجة المسبقة للبيانات الموصوفة التقييمات اللاحقة التي تم الإبلاغ عنها في هذه البطاقة
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة
    • تلخّص بطاقة النموذج هذه تفاصيل النماذج والهندسة المعمارية والإمكانات والقيود وعمليات التقييم.
    • يتيح النموذج المفتوح الذي تم تطويره بشكلٍ مسؤول فرصة مشاركة الابتكار من خلال إتاحة تكنولوجيا النموذج اللغوي الكبير للمطورين للباحثين عبر منظومة الذكاء الاصطناعي المتكاملة

تحديد المخاطر وإجراءات الحدّ منها:

  • استمرار الانحياز: يُستحسن إجراء مراقبة مستمرة (باستخدام مقاييس التقييم، والمراجعة التي يجريها فريق المراجعين) واستكشاف نزع التحيز والتقنيات المختلفة أثناء تدريب النموذج والضبط الدقيق وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: الآليات والإرشادات المتعلّقة بالمحتوى السلامة أمر ضروري. ننصح المطوّرين بتوخي الحذر تنفيذ إجراءات وقاية أمان المحتوى المناسبة استنادًا إلى سياسات المنتجات وحالات استخدام التطبيق.
  • إساءة الاستخدام لأغراض ضارّة: القيود الفنية ومطوّر البرامج يمكن أن يساعد تعريف المستخدمين النهائيين في الحدّ من احتمالات التطبيقات الضارة للنماذج اللغوية الكبيرة. الموارد التعليمية وآليات الإبلاغ التي تتيح للمستخدمين الإبلاغ عن حالات إساءة الاستخدام المقدمة. يتم توضيح الاستخدامات المحظورة لنماذج Gemma في بنود البيانات.
  • انتهاكات الخصوصية: تم تدريب النماذج على البيانات التي تمت فلترتها لإزالة PII (معلومات تحديد الهوية الشخصية). ننصح المطوّرين الالتزام بلوائح الخصوصية وأساليب الحفاظ على الخصوصية.

الغرض من الاستخدام

طلب الانضمام

للنماذج اللغوية الكبيرة (LLM) مجموعة كبيرة من التطبيقات في مختلف مختلف الصناعات والمجالات. القائمة التالية للاستخدامات المحتملة ليست وشاملة. تهدف هذه القائمة إلى توفير معلومات سياقية حول حالات الاستخدام المحتملة التي اعتبرها منشئو النماذج كجزء من النموذج التدريب والتطوير.

  • إنشاء المحتوى والتواصل
    • إنشاء النص: يمكن استخدام هذه النماذج لإنشاء نص إبداعي. بتنسيقات مثل القصائد والنصوص والرموز البرمجية ونصوص التسويق ومسودات الرسائل الإلكترونية وما إلى ذلك
    • برامج تتبُّع المحادثات والذكاء الاصطناعي الحواري: يمكنك استخدام واجهات محادثة فعّالة أو خدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية.
    • تلخيص النص: يمكنك إنشاء ملخّصات موجزة لمجموعة النص. أو أوراق بحثية أو تقارير.
  • البحث والتعليم
    • أبحاث معالجة اللغات الطبيعية (NLP):يمكن أن توفّر هذه النماذج كأساس للباحثين لتجربة تقنيات معالجة اللغات الطبيعية وتطوير الخوارزميات والمساهمة في تقدم هذا المجال.
    • أدوات تعلُّم اللغات: إتاحة تعلّم اللغات التفاعلية التجارب أو المساعدة في تصحيح القواعد النحوية أو توفير التدرّب على الكتابة.
    • استكشاف المعرفة: لمساعدة الباحثين في استكشاف الأجسام الكبيرة من النص عن طريق إنشاء ملخصات أو الإجابة عن أسئلة حول الموضوعات.

المزايا

في وقت الإصدار، توفر مجموعة النماذج هذه الأداء المفتوح من عمليات تنفيذ النماذج اللغوية الكبيرة المصممة من البداية للمسئولية يتم تطوير الذكاء الاصطناعي (AI) مقارنةً بالنماذج ذات الأحجام المشابهة.

باستخدام مقاييس تقييم قياس الأداء الموضحة في هذا المستند، تحدد هذه النماذج تقديم أداء أفضل من النماذج المفتوحة الأخرى ذات الحجم المماثل والبدائل.

على وجه الخصوص، تحقّق نماذج RecurrentGemma أداءً مشابهًا لأداء Gemma ولكنها أسرع أثناء الاستنتاج وتتطلب ذاكرة أقل، خاصةً في والتسلسلات الطويلة.