بطاقة نموذج Gemma

صفحة الطراز: Gemma

المراجع والوثائق الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات حول الطراز

وصف موجز وتعريف موجز للمدخلات والمخرجات.

الوصف

"جيما" هي عائلة من النماذج الخفيفة والحديثة والمفتوحة التي أنشأتها Google، وهي مبنية من نفس الأبحاث والتكنولوجيا المستخدمة في إنشاء نماذج Gemini. وهي عبارة عن نماذج لغوية كبيرة تحوّل النص إلى نص، وفك الترميز فقط، متوفرة باللغة الإنجليزية، مع أوزان مفتوحة وصيغ مدرّبة مسبقًا وصيغ مضبوطة بالتعليمات. تُعد نماذج جيما مناسبة تمامًا لمجموعة متنوعة من مهام إنشاء النص، بما في ذلك الإجابة على الأسئلة والتلخيص والتفكير. فحجمها الصغير نسبيًا يجعل من الممكن نشرها في بيئات ذات موارد محدودة مثل الكمبيوتر المحمول أو الكمبيوتر المكتبي أو البنية الأساسية المستندة إلى السحابة الإلكترونية، ما يتيح إمكانية الوصول إلى أحدث نماذج الذكاء الاصطناعي العصرية والمساعدة في تعزيز الابتكار للجميع.

المُدخلات والمخرجات

  • الإدخال: سلسلة نصية، مثل سؤال أو طلب أو مستند سيتم تلخيصه.
  • الإخراج: نص يتم إنشاؤه باللغة الإنجليزية استجابةً للإدخال، مثل إجابة عن سؤال أو ملخّص لمستند.

معلومات الكتاب

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

بيانات النموذج

البيانات المستخدَمة لتدريب النموذج وكيفية معالجة البيانات

مجموعة بيانات التدريب

تم تدريب هذه النماذج على مجموعة بيانات نصية تتضمن مجموعة متنوعة من المصادر، يصل مجموعها إلى 6 تريليون رمز مميز. إليك المكوّنات الرئيسية:

  • مستندات الويب: تضمن مجموعة متنوعة من نصوص الويب عرض النموذج لمجموعة واسعة من الأنماط اللغوية والمواضيع والمفردات. المحتوى باللغة الإنجليزية في المقام الأول.
  • التعليمات البرمجية: يساعد عرض النموذج على التعليمات البرمجية في تعلم بناء جملة وأنماط لغات البرمجة، مما يحسن قدرته على إنشاء التعليمات البرمجية أو فهم الأسئلة المتعلقة بالتعليمات البرمجية.
  • الرياضيات: يساعد التدريب على النصوص الرياضية على تعلّم النموذج المنطقي والتمثيل الرمزي والتعامل مع الاستعلامات الرياضية.

تعتبر مجموعة مصادر البيانات المتنوعة هذه أمرًا بالغ الأهمية لتدريب نموذج لغوي قوي يمكنه التعامل مع مجموعة متنوعة من المهام وتنسيقات النصوص المختلفة.

المعالجة المسبقة للبيانات

فيما يلي طرق تنظيف البيانات وتصفيتها الرئيسية المطبقة على بيانات التدريب:

  • فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق الفلترة الصارمة لمواد الاعتداء الجنسي على الأطفال (CSAM) على عدة مراحل من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
  • تصفية البيانات الحساسة: في إطار جعل نماذج "جيما" المدرّبة مسبقًا آمنة وموثوقة، تم استخدام أساليب آلية لفلترة بعض المعلومات الشخصية وغيرها من البيانات الحساسة من مجموعات التدريب.
  • طرق إضافية: الفلترة استنادًا إلى جودة المحتوى وأمانه بما يتماشى مع سياساتنا.

معلومات عن عملية التنفيذ

تفاصيل حول الخصائص الداخلية للنموذج.

أجهزة

تم تدريب "جيما" باستخدام أحدث جيل من أجهزة وحدة معالجة المستشعر (TPU) (TPUv5e).

يتطلب تدريب النماذج اللغوية الكبيرة قدرة حسابية كبيرة. إنّ وحدات معالجة الموتّرات، التي صُممت خصيصًا لعمليات المصفوفة الشائعة في التعلّم الآلي، تقدّم مزايا عديدة في هذا المجال:

  • الأداء: تم تصميم وحدات معالجة الموتّرات خصّيصًا لمعالجة العمليات الحسابية الضخمة التي ينطوي عليها تدريب النماذج اللغوية الكبيرة. فهي تستطيع تسريع التدريب إلى حد كبير مقارنة بوحدات المعالجة المركزية.
  • الذاكرة: غالبًا ما تكون وحدات معالجة الموتّرات مزوّدة بمساحات كبيرة من الذاكرة ذات معدّل نقل البيانات العالي، ما يسمح بالتعامل مع النماذج الكبيرة وأحجام الدُفعات أثناء التدريب. وهذا يمكن أن يؤدي إلى تحسين جودة النموذج.
  • قابلية التوسيع: توفر كبائن TPU (مجموعات كبيرة من وحدات معالجة الموتّرات) حلاً قابلاً للتوسع للتعامل مع التعقيد المتزايد للطُرز الأساسية الكبيرة. يمكنك توزيع التدريب على أجهزة متعددة خاصة بوحدة معالجة الموتّرات لمعالجة أسرع وأكثر كفاءة.
  • فعالية التكلفة: في العديد من السيناريوهات، يمكن أن توفر وحدات معالجة الموتّرات حلاً موفّرًا من حيث التكلفة لتدريب النماذج الكبيرة مقارنةً بالبنية الأساسية القائمة على وحدة المعالجة المركزية، خاصةً عند وضع الوقت والموارد التي يتم توفيرها بسبب التدريب الأسرع.
  • تتوافق هذه المزايا مع التزامات Google بالعمل بشكل مستدام.

البرامج

تم إجراء التدريب باستخدام JAX وML Pathways.

تتيح JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة الموتّرات، لتدريب النماذج الكبيرة بشكل أسرع وأكثر كفاءة.

إنّ ML Pathways هي أحدث الجهود التي تبذلها Google لتطوير أنظمة ذكية ومصنَّعة قادرة على تعميم المهام المتعددة. وهذا يناسب تحديدًا نماذج التأسيس، بما في ذلك النماذج اللغوية الكبيرة مثل هذه النماذج.

ويتم استخدام مسارات JAX وML معًا كما هو موضَّح في الورقة التي تتناول مجموعة نماذج Gemini: "يتيح نموذج برمجة "وحدة التحكّم الفردية" في Jax وPathways لعملية بايثون واحدة تنسيق عملية التدريب بالكامل، ما يؤدي إلى تبسيط سير عمل التطوير بشكل كبير".

تقييم

نماذج مقاييس ونتائج التقييم

النتائج المعيارية

تم تقييم هذه النماذج مقابل مجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة لإنشاء النص:

مقياس الأداء المقياس المغنية "جيما PT 2B" Gemma PT 7B
MMLU 5 لقطات، أعلى 1 42.3 64.3
HellaSwag 0 لقطة 71.4 81.2
PIQA 0 لقطة 77.3 81.2
SocialIQA 0 لقطة 49.7 51.8
BoolQ 0 لقطة 69.4 83.2
WinoGrande النتيجة الجزئية 65.4 72.3
CommonsenseQA 7 لقطات 65.3 71.3
OpenBookQA 47.8 52.8
نظام ARC-e 73.2 81.5
السلسلة المستلَمة المصدق عليها (ARC-c) 42.1 53.2
TriviaQA 5 لقطات 53.2 63.4
الأسئلة الطبيعية 5 لقطات 12.5 23
HumanEval Pass@1 22.0 32.3
MBPP 3 لقطات 29.2 44.4
GSM8K maj@1 17.7 46.4
MATH 4 لقطات 11.8 24.3
AGIEval 24.2 41.7
BIG-Bench 35.2 55.1
متوسط 44.9 56.4

الأخلاقيات والسلامة

نهج تقييم الأخلاقيات والأمان ونتائجه.

نهج التقييم

تشمل طرق التقييم التي نتّبعها التقييمات المنظَّمة والاختبار الداخلي من فريق أحمر اللون لسياسات المحتوى ذات الصلة. تم إجراء فريق أحمر من قبل عدد من الفرق المختلفة، لكل منها أهداف مختلفة ومقاييس تقييم أشخاص. وتم تقييم هذه النماذج وفقًا لعدد من الفئات المختلفة ذات الصلة بالأخلاقيات والسلامة، بما في ذلك:

  • أمان المحتوى الموجَّه إلى نص: فريق المراجعين لتقديم الطلبات التي تغطي سياسات السلامة، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم والتحرش والعنف والمحتوى الدموي والكلام الذي يحض على الكراهية
  • الضرر التمثيلي الذي يتم تحويله إلى نص: قياس الأداء في ضوء مجموعات البيانات الأكاديمية ذات الصلة، مثل WinoBias وBBQ Dataset
  • الحفظ: تقييم مبرمَج لحفظ بيانات التدريب، بما في ذلك خطر التعرض للمعلومات التي تحدّد الهوية الشخصية
  • الضرر على نطاق واسع: اختبارات لرصد "الإمكانات الخطيرة"، مثل المخاطر الكيميائية والبيولوجية والإشعاعية والنووية (CBRN).

نتائج التقييم

وتكون نتائج تقييمات الأخلاقيات والسلامة ضمن الحدود المقبولة لاستيفاء السياسات الداخلية في ما يتعلّق بفئات مثل أمان الأطفال وسلامة المحتوى والضرر التمثيلي وحفظ الذكريات والأضرار الواسعة النطاق. بالإضافة إلى التقييمات الداخلية القوية، يتم هنا عرض نتائج مقاييس السلامة المعروفة، مثل مشويات مشويات وحازمة ولينوس وجينوس وفينوبيا وRealToxicity وTruethfulQA.

المغنية "جيما" 1.0

مقياس الأداء المقياس Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity المتوسط 6.86 يورو
غامق 45.57 49.08
أزواج الغربان top-1 45.82 51.33
BBQ Ambig لقطة واحدة، أعلى-1 62.58 92.54
BBQ Disambig top-1 54.62 يورو
Winogender top-1 51.25 54.17
TruthfulQA 44.84 31.81
وينوبياس 1_2 56.12 يورو
وينوبياس 2_2 91.10 92.23
اللغة السامة 29.77 يورو

"جيما" 1.1

مقياس الأداء المقياس Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity المتوسط 7.03 8.04
غامق 47.76
أزواج الغربان top-1 يورو 49.67
BBQ Ambig لقطة واحدة، أعلى-1 58.97 86.06
BBQ Disambig top-1 53.90 85.08
Winogender top-1 50.14 57.64
TruthfulQA 44.24 45.34
وينوبياس 1_2 يورو 59.22
وينوبياس 2_2 89.46 89.2
اللغة السامة 29.64 38.75

الاستخدام والقيود

لهذه النماذج قيود معينة يجب أن يكون المستخدمون على دراية بها.

الاستخدام المقصود

تقدّم النماذج اللغوية الكبيرة (LLM) مجموعة كبيرة من التطبيقات في مختلف المجالات والنطاقات. القائمة التالية من الاستخدامات المحتملة ليست شاملة. تهدف هذه القائمة إلى توفير معلومات سياقية حول حالات الاستخدام المحتملة التي اعتبرها منشئو النماذج جزءًا من تدريب وتطوير النماذج.

  • إنشاء المحتوى والتواصل
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء تنسيقات نصوص ابتكارية مثل القصائد والنصوص البرمجية والنصوص التسويقية ومسودّات الرسائل الإلكترونية.
    • برامج الدردشة المبرمَجة والذكاء الاصطناعي الحواري: هي واجهات محادثة تفاعلية فعّالة لخدمة العملاء أو تطبيقات المساعدة الافتراضية أو التطبيقات التفاعلية.
    • تلخيص النص: يمكنك إنشاء ملخصات موجزة لمجموعة النصوص أو أوراق البحث أو التقارير.
  • البحث والتعليم
    • أبحاث معالجة اللغات الطبيعية (NLP): يمكن لهذه النماذج العمل كأساس للباحثين لتجربة تقنيات معالجة اللغات الطبيعية وتطوير الخوارزميات والمساهمة في تقدم المجال.
    • أدوات تعلّم اللغات: يمكنك الاستفادة من تجارب تعلُّم اللغات التفاعلية أو تصحيح القواعد النحوية أو تقديم التدرب على الكتابة.
    • استكشاف المعرفة: مساعدة الباحثين في استكشاف النصوص الكبيرة من خلال إنشاء ملخّصات أو الإجابة عن أسئلة حول مواضيع محدّدة

القيود

  • بيانات التدريب
    • تؤثر جودة وتنوع بيانات التدريب بشكل كبير على قدرات النموذج. يمكن أن تؤدي التحيزات أو الفجوات في بيانات التدريب إلى قيود في ردود النموذج.
    • يحدد نطاق مجموعة بيانات التدريب المجالات التي يمكن للنموذج التعامل معها بشكل فعال.
  • السياق وتعقيد المهام
    • تكون النماذج اللغوية الكبيرة أفضل في المهام التي يمكن تأطيرها بمطالبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المعقدة للغاية صعبة.
    • قد يتأثّر أداء النموذج بمقدار السياق المقدّم (يؤدي السياق الأطول بشكل عام إلى نتائج أفضل، حتى عند نقطة معيّنة).
  • غموض اللغة والفروقات الدقيقة
    • إن اللغة الطبيعية معقدة بطبيعتها. قد تواجه النماذج اللغوية الكبيرة صعوبة في فهم الفروقات الدقيقة أو السخرية أو اللغة المجازية.
  • الدقة في الواقع
    • تنشئ النماذج اللغوية الكبيرة ردودًا استنادًا إلى المعلومات التي تعلّمتها من مجموعات البيانات التدريبية، لكنّها لا تشكّل قواعد معرفية. قد تنشئ بيانات وقائعية غير صحيحة أو قديمة.
  • المنطق السليم
    • تعتمد النماذج اللغوية الكبيرة على الأنماط الإحصائية في اللغة. قد يفتقرون إلى القدرة على تطبيق التفكير المنطقي في مواقف معينة.

المخاطر والاعتبارات الأخلاقية

إنّ تطوير النماذج اللغوية الكبيرة (LLM) يثير العديد من المخاوف الأخلاقية. لإنشاء نموذج مفتوح، فكرنا في ما يلي بعناية:

  • الانحياز والإنصاف
    • إنّ النماذج اللغوية الكبيرة المدرَّبة على بيانات نصية واسعة النطاق في العالم الواقعي يمكن أن تعكس انحيازات اجتماعية ثقافية مضمّنة في مواد التدريب. خضعت هذه النماذج لتدقيق دقيق، حيث أدخلت المعالجة المسبقة للبيانات الموصوفة، والتقييمات اللاحقة التي تم الإبلاغ عنها في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة:
    • تلخص بطاقة النموذج هذه تفاصيل بنية النماذج والقدرات والقيود وعمليات التقييم.
    • ويتيح النموذج المفتوح الذي تم تطويره بمسؤولية الفرصة لمشاركة الابتكار من خلال إتاحة التكنولوجيا اللغوية الكبيرة (LLM) للمطورين والباحثين عبر منظومة الذكاء الاصطناعي (AI).

تحديد المخاطر والتخفيف من حدتها:

  • استمرار الانحياز: ننصح بإجراء المراقبة المستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف أساليب إزالة الانحياز أثناء تدريب النموذج والضبط الدقيق وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: من الضروري استخدام آليات وإرشادات لضمان أمان المحتوى ننصح المطوّرين بتوخّي الحذر وتطبيق تدابير الوقاية المناسبة للحفاظ على أمان المحتوى استنادًا إلى سياسات منتجاتهم المحدّدة وحالات استخدام التطبيقات.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتعريف المطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارّة للنماذج اللغوية الكبيرة. يتم توفير مراجع تعليمية وآليات إبلاغ للمستخدمين للإبلاغ عن إساءة الاستخدام. تم توضيح الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور من Gemma.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات تحديد الهوية الشخصية (PII). ويتم تشجيع المطوّرين على الالتزام بلوائح الخصوصية من خلال أساليب الحفاظ على الخصوصية.

المزايا

في وقت الإصدار، توفّر مجموعة النماذج هذه عمليات تنفيذ نماذج لغوية مفتوحة وعالية الأداء تم تصميمها من الألف إلى الياء لتطوير الذكاء الاصطناعي المسؤول مقارنةً بالنماذج ذات الأحجام المشابهة.

باستخدام مقاييس تقييم قياس الأداء الموضّحة في هذا المستند، أثبتت هذه النماذج أنّها توفّر أداءً أفضل لبدائل النماذج المفتوحة الأخرى ذات الحجم المشابه.