بطاقة نموذج Gemma 2

صفحة النموذج: Gemma

الموارد والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات حول الطراز

وصف موجز وتعريف موجز للمدخلات والمخرجات.

الوصف

Gemma هي مجموعة من النماذج المتطوّرة والخفيفة المتاحة للجميع من Google، والتي تم إنشاؤها من الأبحاث والتكنولوجيا نفسها المستخدمة في إنشاء نماذج Gemini. هي نماذج لغوية كبيرة تعمل من خلال تحويل النص إلى نص، وبرامج فك الترميز فقط، وتتوفّر باللغة الإنجليزية مع مقاييس مفتوحة لكل من الصيغ المدرّبة مسبقًا والمتغيرات التي تم ضبطها على التعليمات. تناسب نماذج Gemma مجموعة متنوعة من مهام إنشاء النصوص، بما في ذلك الإجابة على الأسئلة والتلخيص والتحليل. وبفضل حجمها الصغير نسبيًا، يمكن نشرها في بيئات ذات موارد محدودة، مثل الكمبيوتر المحمول أو الكمبيوتر المكتبي أو البنية الأساسية للسحابة الإلكترونية، ما يتيح للمستخدمين الوصول إلى أحدث نماذج الذكاء الاصطناعي (AI) والمساعدة في تعزيز الابتكار للجميع.

المُدخلات والمُخرجات

  • الإدخال: سلسلة نصية، مثل سؤال أو طلب أو مستند سيتم تلخيصه
  • الإخراج: يتم إنشاء نص باللغة الإنجليزية ردًا على الإدخال، مثل إجابة على سؤال أو ملخّص لمستند.

معلومات الكتاب

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

بيانات النموذج

يشير ذلك المصطلح إلى البيانات المستخدَمة لتدريب النماذج وطريقة معالجة البيانات.

مجموعة بيانات التدريب

تم تدريب هذه النماذج على مجموعة بيانات مكونة من بيانات نصية تتضمن مجموعة متنوعة من المصادر. تم تدريب النموذج 27 مليار باستخدام 13 تريليون رمز مميّز وتم تدريب النموذج 9 مليار باستخدام 8 تريليون رمز مميّز. في ما يلي المكونات الرئيسية:

  • مستندات الويب: هي مجموعة متنوعة من نصوص الويب تضمن عرض النموذج لمجموعة واسعة من الأنماط والموضوعات والمفردات اللغوية. محتوى باللغة الإنجليزية في المقام الأول.
  • الرمز: يساعد عرض النموذج على الترميز في تعلُّم بنية لغات البرمجة وأنماطها، ما يحسّن من قدرتها على إنشاء الرموز أو فهم الأسئلة المتعلّقة بالرموز.
  • الرياضيات: يساعد التدريب على النصوص الرياضية النموذج على فهم الاستدلال المنطقي والتمثيل الرمزي ومعالجة الاستعلامات الرياضية.

من المهم الجمع بين مصادر البيانات المتنوعة هذه لتدريب نموذج لغوي فعّال يمكنه التعامل مع مجموعة متنوعة من المهام والتنسيقات النصية المختلفة.

المعالجة المسبقة للبيانات

فيما يلي طرق تنظيف البيانات وتصفيتها الرئيسية المطبقة على بيانات التدريب:

  • فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق الفلترة الصارمة المتعلقة بمواد الاعتداء الجنسي على الأطفال في مراحل متعدّدة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
  • تصفية البيانات الحساسة: في إطار جعل نماذج Gemma المدرّبة مسبقًا آمنة وموثوقة، تم استخدام تقنيات آلية لتصفية بعض المعلومات الشخصية والبيانات الحساسة الأخرى من مجموعات التدريب.
  • طرق إضافية: الفلترة استنادًا إلى جودة المحتوى وأمانه بما يتوافق مع سياساتنا

معلومات التنفيذ

تفاصيل حول التصميم الداخلي للنموذج.

أجهزة

تم تدريب "جيما" باستخدام أحدث جيل من أجهزة وحدة معالجة المستشعرات (TPU) (TPUv5p).

يتطلب تدريب النماذج اللغوية الكبيرة قوة حسابية كبيرة. تقدم وحدات معالجة الموتّرات، المصممة خصيصًا لعمليات المصفوفة الشائعة في التعلم الآلي، العديد من المزايا في هذا المجال:

  • الأداء: إنّ وحدات معالجة الموتّرات مصمّمة خصّيصًا للتعامل مع العمليات الحسابية الضخمة الناتجة عن تدريب النماذج اللغوية الكبيرة. يمكنها تسريع التدريب بشكل كبير مقارنة بوحدات المعالجة المركزية.
  • الذاكرة: غالبًا ما تكون وحدات معالجة الموتّرات مزوّدة بكميات كبيرة من الذاكرة ذات معدّل نقل البيانات العالي، ما يسمح بالتعامل مع النماذج الكبيرة وأحجام الدُفعات أثناء التدريب. وقد يؤدي ذلك إلى تحسين جودة النماذج.
  • قابلية التوسع: توفّر لوحات TPU (مجموعات كبيرة من وحدات معالجة الموتّرات) حلاً قابلاً للتطوير للتعامل مع التعقيد المتزايد لنماذج الأساس الكبيرة. يمكنك توزيع التدريب على أجهزة TPU متعددة لإجراء معالجة أسرع وأكثر كفاءة.
  • الفعالية من حيث التكلفة: في العديد من السيناريوهات، يمكن أن توفر وحدات معالجة الموتّرات حلاً أكثر توفيرًا من حيث التكلفة لتدريب النماذج الكبيرة مقارنةً بالبنية الأساسية المستندة إلى وحدة المعالجة المركزية، خاصةً عند الأخذ في الاعتبار الوقت والموارد التي يتم توفيرها بسبب التدريب الأسرع.
  • وتتوافق هذه المزايا مع التزامات Google بالعمل بشكل مستدام.

البرامج

وتم إجراء التدريب باستخدام قناتَي JAX وML Pathways.

وتتيح تقنية JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة الموتّرات، لإجراء تدريب أسرع وأكثر فعالية للنماذج الكبيرة.

تقنية ML Pathways هي أحدث جهود Google لتطوير أنظمة ذكية بشكل مصطنع قادرة على تعميم مهام متعددة. هذه الميزة مناسبة بشكل خاص لنماذج الأساس، بما في ذلك النماذج اللغوية الكبيرة مثل هذه النماذج.

يتم استخدام منهجَي JAX وML Pathways معًا كما هو موضّح في التقرير حول مجموعة نماذج Gemini. ويشكّل نموذج البرمجة "الوحدة تحكّم في البيانات" لـ Jax وPathways عملية واحدة على Python لتنظيم عملية التدريب بأكملها، ما يبسّط عملية التطوير بشكل كبير".

تقييم

مقاييس ونتائج تقييم النموذج

النتائج المعيارية

تم تقييم هذه النماذج وفقًا لمجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية الجوانب المختلفة لإنشاء النص:

مقياس الأداء المقياس Gemma PT 9B Gemma PT 27B
MMLU 5 لقطات، أعلى 1 71.3 75.2
HellaSwag 10 لقطات 81.9 86.4
PIQA 0-لقطة 81.7 83.2
SocialIQA 0-لقطة 53.4 53.7
BoolQ 0-لقطة 84.2 84.8
WinoGrande نتيجة جزئية 80.6 83.7
ARC-e 0-لقطة 88.0 88.6
ARC-c 25 لقطة 68.4 71.4
TriviaQA 5 لقطات 76.6 83.7
الأسئلة الطبيعية 5 لقطات 29.2 34.5
HumanEval Pass@1 40.2 51.8
MBPP 3 لقطات 52.4 62.6
بروتوكول GSM8K 5-shot، maj@1 68.6 74.0
MATH 4 لقطات 36.6 42.3
AGIEval 3-5 لقطات 52.8 55.1
مقعد كبير 3-shot، CoT 68.2 74.9

الأخلاقيات والسلامة

نهج تقييم الأخلاقيات والأمان والنتائج.

نهج التقييم

وتشمل طرق التقييم التي نتّبعها التقييمات المهيكلة واختبار الفريق الأحمر الداخلي لسياسات المحتوى ذات الصلة. تم إجراء الفريق الأحمر بواسطة عدد من الفرق المختلفة، لكل منها أهداف ومقاييس تقييم بشري مختلفة. تم تقييم هذه النماذج وفقًا لعدد من الفئات المختلفة ذات الصلة بالأخلاقيات والسلامة، بما في ذلك:

  • أمان المحتوى في ميزة تحويل النص إلى نص: يشير هذا المصطلح إلى تقييم يُجريه فريق المراجعين لدينا بخصوص الطلبات التي تتناول سياسات الأمان، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم والتحرش والعنف والمحتوى الدموي والكلام الذي يحض على الكراهية.
  • الضرر التمثيلي لتحويل النص إلى نص: قياس الأداء مقابل مجموعات البيانات الأكاديمية ذات الصلة مثل WinoBias ومجموعة بيانات BBQ.
  • الحفظ: تقييم آلي لحفظ بيانات التدريب، بما في ذلك مخاطر الكشف عن معلومات تحديد الهوية الشخصية.
  • الضرر الواسع النطاق: اختبارات "للإمكانات الخطرة"، مثل المخاطر الكيميائية والبيولوجية والإشعاعية والنووية (CBRN).

نتائج التقييم

تندرج نتائج تقييمات الأخلاقيات وتقييمات السلامة ضمن الحدود المقبولة لاستيفاء السياسات الداخلية لفئات، مثل سلامة الأطفال وأمان المحتوى والأضرار التمثيلية والحفظ والأضرار الواسعة النطاق. إضافةً إلى التقييمات الداخلية القوية، يتم هنا عرض نتائج معايير الأمان المعروفة مثل شواء وخصوصية وWinogender وWinobias وRealToxicity وTrthfulQA.

Gemma 2.0

مقياس الأداء المقياس Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity المتوسط 8.25 8.84
أزواج الغربان top-1 37.47 36.67
حفلة شواء لقطة واحدة، أعلى 1 88.58 85.99
توضيح كيفية الشواء top-1 82.67 86.94
متعدد الجنس top-1 79.17 77.22
TruthfulQA 50.27 51.60
Winobias 1_2 78.09 81.94
Winobias 2_2 95.32 97.22
Toxigen 39.30 38.42

الاستخدام والقيود

هذه النماذج لها قيود معينة يجب أن يكون المستخدمون على دراية بها.

الاستخدام المقصود

للنماذج اللغوية الكبيرة (LLM) مجموعة واسعة من التطبيقات في مختلف الصناعات والنطاقات. القائمة التالية للاستخدامات المحتملة ليست شاملة. تهدف هذه القائمة إلى توفير معلومات سياقية عن حالات الاستخدام المحتملة التي اعتبرها منشئو النماذج كجزء من تدريب النموذج وتطويره.

  • إنشاء المحتوى والتواصل
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء تنسيقات نصوص إبداعية مثل القصائد والنصوص والرموز البرمجية والنسخة التسويقية ومسودات الرسائل الإلكترونية.
    • روبوتات الدردشة والذكاء الاصطناعي الحواري: تعزيز واجهات المحادثة لخدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية.
    • تلخيص النص: يمكنك إنشاء ملخّصات موجزة لمجموعة النصوص أو الأبحاث أو التقارير.
  • الأبحاث والتعليم
    • أبحاث معالجة اللغات الطبيعية (NLP): يمكن أن تكون هذه النماذج بمثابة أساس للباحثين لتجربة تقنيات معالجة اللغات الطبيعية وتطوير الخوارزميات والمساهمة في تطوير هذا المجال.
    • أدوات تعلّم اللغات: دعم تجارب تعلّم اللغات التفاعلية أو المساعدة في تصحيح القواعد النحوية أو توفير تمارين الكتابة.
    • استكشاف المعرفة: يمكنك مساعدة الباحثين في استكشاف مساحات كبيرة من النصوص عن طريق إنشاء ملخصات أو الإجابة عن أسئلة حول مواضيع محددة.

القيود

  • بيانات التدريب
    • تؤثر جودة وتنوع بيانات التدريب بشكل كبير على قدرات النموذج. يمكن أن تؤدي التحيزات أو الفجوات في بيانات التدريب إلى قيود في استجابات النموذج.
    • يحدد نطاق مجموعة بيانات التدريب مجالات الموضوع التي يمكن للنموذج التعامل معها بشكل فعال.
  • السياق وتعقيد المهام
    • إنّ النماذج اللغوية الكبيرة أفضل في المهام التي يمكن وضعها في إطار طلبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المعقدة للغاية صعبة.
    • يمكن أن يتأثر أداء النموذج بحجم السياق الذي يتم تقديمه (يؤدي السياق الأطول بشكل عام إلى نتائج أفضل، وصولاً إلى نقطة معيّنة).
  • الغموض والغموض في اللغة
    • اللغة الطبيعية معقّدة بطبيعتها. قد تكافح النماذج اللغوية الكبيرة في فهم الفروق الطفيفة أو السخرية أو اللغة المجازية.
  • الدقة في الوقائع
    • تنشئ النماذج اللغوية الكبيرة ردودًا استنادًا إلى المعلومات التي تعلّمها من مجموعات بيانات التدريب، ولكنّها ليست قواعد معرفية. قد ينتج عنها بيانات وقائعية غير صحيحة أو قديمة.
  • Common Sense
    • تعتمد النماذج اللغوية الكبيرة على أنماط إحصائية في اللغة. قد يفتقرون إلى القدرة على تطبيق الاستنتاج المنطقي في مواقف معينة.

الاعتبارات الأخلاقية والمخاطر

إنّ تطوير النماذج اللغوية الكبيرة (LLM) يثير عدة مخاوف أخلاقية. عند إنشاء نموذج مفتوح، يتم أخذ ما يلي في الاعتبار بعناية:

  • التحيز والإنصاف
    • يمكن للنماذج اللغوية الكبيرة المدرَّبة على بيانات نصية واسعة النطاق من الواقع أن تعكس التحيزات الاجتماعية والثقافية المضمّنة في المواد التدريبية. خضعت هذه النماذج لتدقيق دقيق وإدخال بيانات المعالجة المسبقة للبيانات الموصوفة والتقييمات الخلفية المذكورة في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة:
    • تلخّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناته وقيوده وعمليات التقييم.
    • يتيح النموذج المفتوح الذي تم تطويره بشكلٍ مسؤول فرصة مشاركة الابتكار من خلال إتاحة تكنولوجيا "النموذج اللغوي الكبير" (LLM) للمطوّرين والباحثين على مستوى منظومة الذكاء الاصطناعي المتكاملة.

المخاطر التي تم تحديدها وتقليلها:

  • استمرار الانحياز: ننصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة التي يجريها فريق المراجعين) واستكشاف أساليب الحدّ من الانحياز أثناء تدريب النموذج والضبط الدقيق وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: تُعتبر الآليات والإرشادات المتعلّقة بأمان المحتوى أمرًا ضروريًا. ننصح المطوّرين بتوخي الحذر وتنفيذ إجراءات وقائية مناسبة للحفاظ على أمان المحتوى استنادًا إلى سياسات المنتجات المحدّدة لديهم وحالات استخدام التطبيقات.
  • إساءة الاستخدام لأغراض ضارّة: يمكن أن تساعد القيود الفنية وتعليم المطوّرين والمستخدمين النهائيين في الحدّ من احتمالات التطبيقات الضارة للنماذج اللغوية الكبيرة. توفير موارد تعليمية وآليات إبلاغ تساعد المستخدمين في الإبلاغ عن حالات إساءة الاستخدام. يتم توضيح الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لـ Gemma.
  • انتهاكات الخصوصية: تم تدريب النماذج على البيانات التي تمت فلترتها لإزالة معلومات تحديد الهوية الشخصية (PII) (معلومات تحديد الهوية الشخصية). ننصح المطوّرين بالالتزام بلوائح الخصوصية بأساليب الحفاظ على الخصوصية.

المزايا

في وقت إصدار هذه المجموعة، توفّر هذه المجموعة من النماذج عمليات تنفيذ لنماذج لغوية كبيرة ومفتوحة عالية الأداء تم تصميمها من البداية لتطوير الذكاء الاصطناعي بشكل مسؤول مقارنةً بالنماذج ذات الأحجام المشابهة.

باستخدام مقاييس تقييم المعايير الموضحة في هذا المستند، أثبتت هذه النماذج أنها توفر أداءً متفوقًا لبدائل النماذج المفتوحة الأخرى ذات الأحجام المشابهة.