بطاقة نموذج Gemma 2

صفحة طراز السيارة: Gemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات حول الطراز

وصف موجز وتعريف مختصر للمدخلات والمخرجات

الوصف

‫Gemma هي مجموعة من أحدث النماذج المتطوّرة والخفيفة المتاحة للجميع من Google، والتي تم إنشاؤها بناءً على الأبحاث والتكنولوجيا نفسها المستخدَمة في إنشاء نماذج Gemini. وهي نماذج لغوية كبيرة لتحويل النصوص إلى نصوص، وهي متاحة باللغة الإنجليزية، وتكون أوزانها مفتوحة لكل من الصيغة المدربة مسبقًا والصيغة المُعدَّة وفقًا للتعليمات. نماذج Gemma مناسبة تمامًا لمجموعة متنوعة من مهام إنشاء النصوص، بما في ذلك الإجابة عن الأسئلة والتلخيص والاستدلال. ويسمح حجمها الصغير نسبيًا بنشرها في البيئات التي تتضمّن موارد محدودة، مثل جهاز كمبيوتر محمول أو كمبيوتر مكتبي أو البنية الأساسية الخاصة بك في السحابة الإلكترونية، ما يسهّل على الجميع استخدام نماذج الذكاء الاصطناعي المتطوّرة ويساعد في تعزيز الابتكار.

المدخلات والمخرجات

  • الإدخال: سلسلة نصية، مثل سؤال أو طلب أو مستند ليتم تلخيصه
  • الإخراج: نص تم إنشاؤه باللغة الإنجليزية استجابةً للنص الذي أدخلته، مثل إجابة عن سؤال أو ملخّص لمستند

معلومات الكتاب

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

بيانات الطراز

البيانات المستخدَمة لتدريب النموذج وكيفية معالجتها

مجموعة بيانات التدريب

تم تدريب هذه النماذج على مجموعة بيانات من البيانات النصية التي تتضمّن مجموعة كبيرة من المصادر. تم تدريب النموذج الذي يتضمّن 27 مليار رمز على 13 تريليون رمز، وتم تدريب النموذج الذي يتضمّن 9 مليار رمز على 8 تريليون رمز، وتم تدريب النموذج الذي يتضمّن 2 مليار رمز على تريليوني رمز. في ما يلي المكونات الرئيسية:

  • مستندات الويب: تضمن مجموعة متنوعة من نصوص الويب تعريض النموذج لمجموعة واسعة من الأنماط اللغوية والمواضيع والمفردات. محتوى باللغة الإنجليزية بشكل أساسي
  • الرموز البرمجية: يساعد عرض النموذج على الرموز البرمجية في تعلُّم البنية والأنماط المتعلّقة بلغات البرمجة، ما يُحسِّن من قدرته على إنشاء رموز برمجية أو فهم الأسئلة المتعلّقة بالرموز البرمجية.
  • الرياضيات: يساعد التدريب على النصوص الرياضية النموذج على تعلُّم مناقشة مبررة منطقية وتمثيل رمزي ومعالجة طلبات بحث رياضية.

إنّ الجمع بين مصادر البيانات المتنوعة هذه أمر بالغ الأهمية لتدريب ملف شخصي لغوي قوي يمكنه التعامل مع مجموعة كبيرة من المهام المختلفة وتنسيقات النصوص.

معالجة البيانات الأولية

في ما يلي طرق تنظيف البيانات وفلترها الرئيسية التي يتم تطبيقها على data التدريبية:

  • فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق فلترة صارمة لمواد الاعتداء الجنسي على الأطفال في مراحل متعددة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
  • فلترة البيانات الحسّاسة: كجزء من جعل نماذج Gemma المدربة مسبقًا آمنة وموثوقة، تم استخدام أساليب مبرمَجة لفلترة معلومات شخصية معيّنة وغيرها من البيانات الحسّاسة من مجموعات التدريب.
  • طرق إضافية: الفلترة استنادًا إلى جودة المحتوى وأمانه بما يتوافق مع سياساتنا

معلومات التنفيذ

تفاصيل حول العناصر الداخلية للنموذج

أجهزة

تم تدريب Gemma باستخدام أحدث جيل من أجهزة وحدة معالجة النصوص (TPU) (TPUv5p).

يتطلّب تدريب النماذج اللغوية الكبيرة قدرة حوسبية كبيرة. توفّر وحدات TPU، التي تم تصميمها خصيصًا لعمليات المصفوفات الشائعة في تعلُّم الآلة، عدة مزايا في هذا المجال:

  • الأداء: تم تصميم وحدات TPU خصيصًا للتعامل مع العمليات الحسابية الهائلة المرتبطة بتدريب النماذج اللغوية الكبيرة. ويمكنها تسريع عملية التدريب بشكل كبير مقارنةً بمعالجات الصعوبة المنخفضة.
  • الذاكرة: غالبًا ما تكون وحدات TPU مزوّدة بكميات كبيرة من الذاكرة ذات النطاق الترددي العالي، ما يتيح التعامل مع النماذج الكبيرة وأحجام الدفعات أثناء التدريب. ويمكن أن يؤدي ذلك إلى تحسين جودة النموذج.
  • قابلية التوسّع: توفّر مجموعات وحدات معالجة النصوص الفائقة (TPU Pods) (مجموعات كبيرة من وحدات TPU) حلًا قابلاً للتوسّع لمعالجة التعقيد المتزايد للنماذج الأساسية الكبيرة. يمكنك توزيع عملية التدريب على أجهزة TPU متعددة لمعالجة البيانات بشكل أسرع وأكثر كفاءة.
  • الكفاءة من حيث التكلفة: في العديد من السيناريوهات، يمكن أن توفّر وحدات TPU حلًا أكثر فعالية من حيث التكلفة لتدريب النماذج الكبيرة مقارنةً بالبنية الأساسية المستندة إلى وحدة المعالجة المركزية، خاصةً عند النظر في الوقت والموارد التي يتم توفيرها بسبب التدريب الأسرع.
  • تتوافق هذه المزايا مع التزامات Google بالعمل بشكل مستدام.

البرامج

تم التدريب باستخدام JAX ومسارات تعلُّم الآلة.

تتيح مكتبة JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة النطاق الفائق (TPU)، وذلك لتدريب النماذج الكبيرة بشكل أسرع وأكثر فعالية.

‫ML Pathways هي أحدث جهود Google لبناء أنظمة ذكاء اصطناعي قادرة على التعميم على مستوى مهام متعددة. يناسب ذلك بشكل خاص النماذج الأساسية، بما في ذلك النماذج اللغوية الكبيرة مثل هذه النماذج.

يتم استخدام JAX وML Pathways معًا كما هو موضّح في المقالة حول مجموعة نماذج Gemini: "يسمح نموذج برمجة "المشغّل الفردي" في Jax وPathways لعملية Python واحدة بتنسيق عملية التدريب بأكملها، ما يبسط بشكل كبير سير العمل في التطوير".

التقييم

مقاييس تقييم النموذج ونتائجه

نتائج قياس الأداء

تم تقييم هذه النماذج مقارنةً بمجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة من إنشاء النصوص:

مقياس الأداء المقياس جميلة 2 PT 2B جميلة 2 PT 9B Gemma 2 PT 27B
MMLU 5 لقطات، اللقطة الأولى 51.3 71.3 75.2
HellaSwag 10 لقطات 73.0 81.9 86.4
PIQA طلب بلا مثال 77.8 81.7 83.2
SocialIQA طلب بلا مثال 51.9 53.4 53.7
BoolQ طلب بلا مثال 72.5 84.2 84.8
WinoGrande نتيجة جزئية 70.9 80.6 83.7
ARC-e طلب بلا مثال 80.1 88.0 88.6
ARC-c 25 لقطة 55.4 68.4 71.4
TriviaQA 5 لقطات 59.4 76.6 83.7
الأسئلة الطبيعية 5 لقطات 16.7 29.2 34.5
HumanEval pass@1 17.7 40.2 51.8
MBPP 3 لقطات 29.6 52.4 62.6
GSM8K 5 لقطات، maj@1 23.9 68.6 74.0
MATH لقطة من 4 صور 15 36.6 42.3
AGIEval 3-5-shot 30.6 52.8 55.1
إسقاط لقطة بثلاثة صور، F1 52.0 69.4 72.2
BIG-Bench 3 لقطات، سلسلة أفكار 41.9 68.2 74.9

الأخلاق والسلامة

المنهج والنتائج المتعلّقة بتقييم الأخلاق والسلامة

منهج التقييم

تشمل طرق التقييم التي نتّبعها تقييمات منظَّمة واختبارات داخلية لفريق الاختراق (Red Team) بشأن سياسات المحتوى ذات الصلة. تم تنفيذ أسلوب "الفريق الأحمر" من قِبل عدد من الفِرق المختلفة، ولكل فريق أهداف ومقاييس تقييم بشرية مختلفة. تم تقييم هذه النماذج وفقًا لعدد من الفئات المختلفة ذات الصلة بالأخلاق والسلامة، بما في ذلك:

  • أمان المحتوى النصي إلى النصي: تقييم بشري للطلبات التي تغطي سياسات أمان المحتوى، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم والمضايقة والعنف والمحتوى الدموي والكلام الذي يحض على الكراهية
  • الأضرار التمثيلية الناتجة عن تحويل النص إلى نص: مقارنة بالأداء في مجموعات بيانات أكاديمية ذات صلة، مثل WinoBias وBBQ Dataset
  • الحفظ: تقييم آلي لحفظ بيانات التدريب، بما في ذلك خطر تعريض معلومات تحديد الهوية الشخصية
  • الضرر على نطاق واسع: اختبارات "القدرات الخطيرة"، مثل المخاطر الكيميائية والبيولوجية والإشعاعية والنووية (CBRN)

نتائج التقييم

تقع نتائج تقييمات الأخلاق والسلامة ضمن الحدود المقبولة لاستيفاء السياسات الداخلية لفئات مثل سلامة الأطفال وسلامة المحتوى والأضرار الناتجة عن التمثيل والحفظ والأضرار على نطاق واسع. بالإضافة إلى التقييمات الداخلية القوية، يتم عرض نتائج قياسات الأداء المعروفة للسلامة، مثل BBQ وBOLD وWinogender وWinobias وRealToxicity وTruthfulQA.

Gemma 2.0

مقياس الأداء المقياس Gemma 2 IT 2B جميلة 2 تكنولوجيا المعلومات 9ب Gemma 2 IT 27B
RealToxicity المتوسط 8.16 8.25 8.84
CrowS-Pairs top-1 37.67 37.47 36.67
BBQ Ambig لقطة واحدة، أفضل لقطة 83.20 88.58 85.99
BBQ Disambig top-1 69.31 82.67 86.94
Winogender top-1 52.91 79.17 77.22
TruthfulQA 43.72 50.27 51.60
Winobias 1_2 59.28 78.09 81.94
Winobias 2_2 88.57 95.32 97.22
Toxigen 48.32 39.30 38.42

تقييمات القدرات الخطيرة

منهج التقييم

لقد قيّمنا مجموعة من الإمكانات الخطيرة:

  • الأمن السيبراني الهجومي: لتقييم احتمالية إساءة استخدام النموذج في سياقات الأمن السيبراني، استخدَمنا منصّتَي CTF المتاحتَين للجميع، مثل InterCode-CTF وHack the Box، بالإضافة إلى تحديات CTF التي تم تطويرها داخليًا. تقيس هذه التقييمات قدرة النموذج على استغلال الثغرات الأمنية والوصول إلى البيانات بدون إذن في البيئات المحاكية.
  • الانتشار الذاتي: قيّمنا قدرة النموذج على الانتشار الذاتي من خلال تصميم مهام تتضمّن الحصول على الموارد وتنفيذ الرمز البرمجي والتفاعل مع الأنظمة البعيدة. تقيس هذه التقييمات قدرة النموذج على التكرار والانتشار بشكل مستقل.
  • الإقناع: لتقييم قدرة النموذج على الإقناع والتضليل، أجرينا دراسات حول الإقناع لدى البشر. وتضمنت هذه الدراسات سيناريوهات تقيس قدرة النموذج على بناء علاقات وطيدة والتأثير في المعتقدات وحثّ المشاركين على اتّخاذ إجراءات معيّنة.

نتائج التقييم

يتم وصف جميع التقييمات بالتفصيل في تقييم النماذج الرائدة للقدرات الخطيرة ومقتضبًا في التقرير الفني لمشروع Gemma 2.

التقييم الإمكانية Gemma 2 IT 27B
InterCode-CTF الأمن السيبراني الهجومي 34/76 تحديًا
مسابقة CTF داخلية الأمن السيبراني الهجومي 1/13 تحديات
Hack the Box الأمن السيبراني الهجومي 0/13 تحدّيًا
الإنذار المبكر بالانتشار الذاتي التكاثر الذاتي تحديات 1/10
حملة علاقات ناجحة الإقناع النسبة المئوية للمشاركين الذين يوافقون على ما يلي: ‎81% من المشاركين وجدوا المحادثة مثيرة للاهتمام، ‎75% من المشاركين سيتحدثون مرة أخرى، ‎80% من المشاركين تواصلوا مع الآخرين بشكل شخصي
النقر على الروابط الإقناع ‫34% من المشاركين
العثور على معلومات الإقناع %9 من المشاركين
تنفيذ الرمز الإقناع %11 من المشاركين
لغة المال الإقناع 3.72 جنيه إسترليني هو متوسط مبلغ التبرّع
شبكة من الأكاذيب الإقناع تعني نسبة% 18 حدوث تغيير نحو الاعتقاد الصحيح، وتعني نسبة% 1 حدوث تغيير نحو اعتقاد غير صحيح.

الاستخدام والقيود

لهذه النماذج قيود معيّنة يجب أن يكون المستخدمون على دراية بها.

الغرض من الاستخدام

تُستخدم النماذج اللغوية الكبيرة المفتوحة (LLM) في مجموعة واسعة من التطبيقات في مختلف التخصصات والمجالات. إنّ القائمة التالية للاستخدامات المحتملة ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتمَلة التي أخذها صنّاع النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها.

  • إنشاء المحتوى والتواصل
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء تنسيقات نصوص إبداعية، مثل القصائد والنصوص البرمجية والرموز والنصوص التسويقية ومسودات الرسائل الإلكترونية.
    • برامج الدردشة والذكاء الاصطناعي الحواري: تحسين واجهات المحادثة لخدمة العميل أو المساعدين الافتراضيين أو التطبيقات التفاعلية
    • تلخيص النصوص: إنشاء ملخّصات موجزة لنصّ أو أبحاث أو تقارير
  • الأبحاث والتعليم
    • أبحاث معالجة اللغة الطبيعية: يمكن أن تُستخدم هذه النماذج كأساس لتجربة الباحثين لتقنيات معالجة اللغة الطبيعية وتطوير الخوارزميات والمساهمة في تطوير هذا المجال.
    • أدوات تعلُّم اللغات: تتيح تجارب تعلُّم تفاعلية للغات، وتساعد في تصحيح الأخطاء النحوية أو توفير تدريبات على الكتابة.
    • استكشاف المعرفة: مساعدة الباحثين في استكشاف مجموعات كبيرة من النصوص من خلال إنشاء ملخصات أو الإجابة عن أسئلة حول مواضيع معيّنة

القيود

  • بيانات التدريب
    • تؤثر جودة بيانات التدريب وتنوعها بشكل كبير في إمكانات النموذج. يمكن أن تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى قيود في ردود النموذج.
    • يحدّد نطاق مجموعة بيانات التدريب مجالات المواضيع التي يمكن للنموذج التعامل معها بفعالية.
  • السياقات وتعقيد المهام
    • تُحقّق النماذج اللغوية الكبيرة أداءً أفضل في المهام التي يمكن صياغة طلبات وتعليمات واضحة لها. قد تكون المهام المفتوحة أو المهام المعقدة للغاية صعبة.
    • يمكن أن يتأثر أداء النموذج بكمية السياق المقدَّمة، ويؤدي السياق الأطول بشكل عام إلى نتائج أفضل إلى حدّ معيّن.
  • الغموض في اللغة والتفاصيل الدقيقة
    • اللغة الطبيعية معقّدة بطبيعتها. قد تواجه النماذج اللغوية الكبيرة صعوبة في فهم الاختلافات الدقيقة أو السخرية أو اللغة المجازية.
  • دقة الحقائق
    • تنشئ النماذج اللغوية الكبيرة الردود استنادًا إلى المعلومات التي اكتسبتها من مجموعات البيانات التدريبية، ولكنها ليست قواعد معرفة. وقد تنشئ هذه المراجع بيانات وقائعية غير صحيحة أو قديمة.
  • Common Sense
    • تعتمد النماذج اللغوية الكبيرة على الأنماط الإحصائية في اللغة. قد لا يملك الطفل القدرة على تطبيق المنطق السليم في مواقف معيّنة.

الاعتبارات الأخلاقية والمخاطر

يثير تطوير النماذج اللغوية الكبيرة (LLM) العديد من المخاوف الأخلاقية. عند إنشاء نموذج مفتوح، أخذنا في الاعتبار ما يلي بعناية:

  • الانحياز والعدالة
    • يمكن أن تعكس النماذج اللغوية الكبيرة التي تم تدريبها على بيانات نصية واسعة النطاق من العالم الواقعي أحكامًا مسبقةجتماعية وثقافية مدمجة في مادة التدريب. خضعَت هذه النماذج لفحصٍ دقيقٍ، وتمت معالجة البيانات المُدخلة مسبقًا كما هو موضّح في التقييمات اللاحقة المُدرَجة في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة:
    • تلخِّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناتها والقيود المفروضة عليها وعمليات التقييم.
    • يقدّم النموذج المفتوح الذي تم تطويره بمسؤولية فرصة لمشاركة الابتكار من خلال إتاحة تكنولوجيا النماذج اللغوية الكبيرة للمطوّرين والباحثين في المنظومة المتكاملة للذكاء الاصطناعي.

المخاطر التي تم تحديدها والتدابير التي تم اتّخاذها للحدّ منها:

  • استمرار الانحيازات: ننصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النماذج وتحسينها وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: يجب توفير آليات وإرشادات لضمان سلامة المحتوى. ننصح المطوّرين بتوخّي الحذر وتنفيذ إجراءات وقائية مناسبة لسلامة المحتوى استنادًا إلى سياسات المنتجات الخاصة بهم وحالات استخدام التطبيقات.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وبرامج التعليم المخصّصة للمطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارة للغة الآلية الضخمة. يتم توفير موارد تعليمية وآليات الإبلاغ للمستخدمين من أجل الإبلاغ عن إساءة الاستخدام. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لنماذج Gemma.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات تحديد الهوية الشخصية (PII). ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات الحفاظ على الخصوصية.

المزايا

في وقت الإصدار، توفّر مجموعة النماذج هذه عمليات تنفيذ نماذج لغوية كبيرة مفتوحة عالية الأداء ومصمّمة من الألف إلى الياء لتطوير الذكاء الاصطناعي المسؤول مقارنةً بالنماذج ذات الحجم المماثل.

باستخدام مقاييس تقييم الأداء الموضّحة في هذا المستند، أظهرت هذه النماذج أنّها تحقّق أداءً أفضل من بدائل النماذج المفتوحة الأخرى ذات الحجم المماثل.