صفحة طراز السيارة: Gemma
المراجع والمستندات الفنية:
بنود الاستخدام: البنود
المؤلفون: Google
معلومات حول الطراز
وصف موجز وتعريف مختصر للمدخلات والمخرجات
الوصف
Gemma هي مجموعة من أحدث النماذج المتطوّرة والخفيفة المتاحة للجميع من Google، والتي تم إنشاؤها بناءً على الأبحاث والتكنولوجيا نفسها المستخدَمة في إنشاء نماذج Gemini. وهي نماذج لغوية كبيرة لتحويل النصوص إلى نصوص، وتعمل على فك الترميز فقط، وهي متاحة باللغة الإنجليزية، مع أوزان مفتوحة ونُسخ مدرَّبة مسبقًا ونُسخ معدّلة وفقًا للتعليمات. نماذج Gemma مناسبة تمامًا لمجموعة متنوعة من مهام إنشاء النصوص، بما في ذلك الإجابة عن الأسئلة والتلخيص والتحليل. ويسمح حجمها الصغير نسبيًا بنشرها في البيئات التي تتضمّن موارد محدودة، مثل جهاز كمبيوتر محمول أو كمبيوتر مكتبي أو البنية الأساسية الخاصة بك في السحابة الإلكترونية، ما يسهّل على الجميع استخدام نماذج الذكاء الاصطناعي المتطوّرة ويساعد في تعزيز الابتكار.
المدخلات والمخرجات
- الإدخال: سلسلة نصية، مثل سؤال أو طلب أو مستند ليتم تلخيصه
- الإخراج: نص تم إنشاؤه باللغة الإنجليزية استجابةً للنص الذي أدخلته، مثل إجابة عن سؤال أو ملخّص لمستند
معلومات الكتاب
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
بيانات الطراز
البيانات المستخدَمة لتدريب النموذج وكيفية معالجتها
مجموعة بيانات التدريب
تم تدريب هذه النماذج على مجموعة بيانات من البيانات النصية التي تتضمّن مجموعة كبيرة من المصادر، والتي يبلغ مجموعها 6 تريليونات رمز. في ما يلي المكونات الرئيسية:
- مستندات الويب: تضمن مجموعة متنوعة من نصوص الويب تعريض النموذج لمجموعة واسعة من الأنماط اللغوية والمواضيع والمفردات. محتوى باللغة الإنجليزية بشكل أساسي
- الرموز البرمجية: يساعد عرض الرموز البرمجية على النموذج في تعلُّم البنية والأنماط المتعلّقة بلغات البرمجة، ما يُحسِّن من قدرته على إنشاء رموز برمجية أو فهم الأسئلة المتعلّقة بالرموز البرمجية.
- الرياضيات: يساعد التدريب على النصوص الرياضية النموذج على تعلُّم مناقشة مبررة منطقية وتمثيل رمزي ومعالجة طلبات بحث رياضية.
إنّ الجمع بين مصادر البيانات المتنوعة هذه أمرٌ مهم لتدريب ملف شخصي لغوي قوي يمكنه التعامل مع مجموعة كبيرة من المهام المختلفة وتنسيقات النصوص.
معالجة البيانات الأولية
في ما يلي طرق تنظيف البيانات وفلترها الرئيسية التي يتم تطبيقها على data التدريبية:
- فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق فلترة صارمة لمواد الاعتداء الجنسي على الأطفال في مراحل متعددة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
- فلترة البيانات الحسّاسة: كجزء من جعل نماذج Gemma المدربة مسبقًا آمنة وموثوقة، تم استخدام أساليب مبرمَجة لفلترة معلومات شخصية معيّنة وغيرها من البيانات الحسّاسة من مجموعات التدريب.
- طرق إضافية: الفلترة استنادًا إلى جودة المحتوى وأمانه بما يتوافق مع سياساتنا
معلومات التنفيذ
تفاصيل حول العناصر الداخلية للنموذج
أجهزة
تم تدريب Gemma باستخدام أحدث جيل من أجهزة وحدة معالجة النصوص (TPU) (TPUv5e).
يتطلب تدريب النماذج اللغوية الكبيرة قدرة حوسبية كبيرة. توفّر وحدات TPU، التي تم تصميمها خصيصًا لعمليات المصفوفات الشائعة في تعلُّم الآلة، عدة مزايا في هذا المجال:
- الأداء: تم تصميم وحدات TPU خصيصًا للتعامل مع العمليات الحسابية الهائلة المرتبطة بتدريب النماذج اللغوية الكبيرة. ويمكنها تسريع عملية التدريب بشكل كبير مقارنةً بمعالجات الصعوبة المنخفضة.
- الذاكرة: غالبًا ما تكون وحدات TPU مزوّدة بكميات كبيرة من الذاكرة ذات النطاق الترددي العالي، ما يتيح التعامل مع النماذج الكبيرة وأحجام الدفعات أثناء التدريب. ويمكن أن يؤدي ذلك إلى تحسين جودة النموذج.
- قابلية التوسّع: توفّر مجموعات وحدات معالجة النصوص الفائقة (TPU Pods) (مجموعات كبيرة من وحدات TPU) حلًا قابلاً للتوسّع لمعالجة التعقيد المتزايد للنماذج الأساسية الكبيرة. يمكنك توزيع عملية المعالجة على أجهزة TPU متعددة لمعالجة البيانات بشكل أسرع وأكثر كفاءة.
- الكفاءة من حيث التكلفة: في العديد من السيناريوهات، يمكن أن توفّر وحدات TPU حلًا أكثر فعالية من حيث التكلفة لتدريب النماذج الكبيرة مقارنةً بالبنية الأساسية المستندة إلى وحدة المعالجة المركزية، خاصةً عند النظر في الوقت والموارد التي يتم توفيرها بسبب التدريب الأسرع.
- تتوافق هذه المزايا مع التزامات Google بالعمل بشكل مستدام.
البرامج
تم التدريب باستخدام JAX ومسارات تعلُّم الآلة.
تتيح مكتبة JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة النطاق الفائق (TPU)، لتدريب النماذج الكبيرة بشكل أسرع وأكثر فعالية.
ML Pathways هي أحدث جهود Google لبناء أنظمة ذكاء اصطناعي قادرة على التعميم على مستوى مهام متعددة. يناسب ذلك بشكل خاص النماذج الأساسية، بما في ذلك النماذج اللغوية الكبيرة مثل هذه النماذج.
يتم استخدام JAX وML Pathways معًا كما هو موضّح في المقالة حول مجموعة نماذج Gemini: "يسمح نموذج برمجة "جهاز التحكّم الفردي" في Jax وPathways لعملية Python واحدة بتنسيق عملية التدريب بأكملها، ما يبسط بشكل كبير سير العمل في التطوير".
التقييم
مقاييس تقييم النموذج ونتائجه
نتائج قياس الأداء
تم تقييم هذه النماذج مقارنةً بمجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة من إنشاء النصوص:
مقياس الأداء | المقياس | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5 لقطات، اللقطة الأولى | 42.3 | 64.3 |
HellaSwag | طلب بلا مثال | 71.4 | 81.2 |
PIQA | طلب بلا مثال | 77.3 | 81.2 |
SocialIQA | طلب بلا مثال | 49.7 | 51.8 |
BoolQ | طلب بلا مثال | 69.4 | 83.2 |
WinoGrande | نتيجة جزئية | 65.4 | 72.3 |
CommonsenseQA | 7 لقطات | 65.3 | 71.3 |
OpenBookQA | 47.8 | 52.8 | |
ARC-e | 73.2 | 81.5 | |
ARC-c | 42.1 | 53.2 | |
TriviaQA | 5 لقطات | 53.2 | 63.4 |
الأسئلة الطبيعية | 5 لقطات | 12.5 | 23.0 |
HumanEval | pass@1 | 22.0 | 32.3 |
MBPP | لقطة من 3 صور | 29.2 | 44.4 |
GSM8K | maj@1 | 17.7 | 46.4 |
MATH | لقطة من 4 صور | 11.8 | 24.3 |
AGIEval | 24.2 | 41.7 | |
BIG-Bench | 35.2 | 55.1 | |
متوسط | 44.9 | 56.4 |
الأخلاق والسلامة
المنهج والنتائج المتعلّقة بتقييم الأخلاق والسلامة
منهج التقييم
تشمل طرق التقييم التي نتّبعها تقييمات منظَّمة واختبارات داخلية لفريق الاختراق (Red Team) بشأن سياسات المحتوى ذات الصلة. تم تنفيذ أسلوب "الفريق الأحمر" من قِبل عدد من الفِرق المختلفة، ولكل فريق أهداف ومقاييس تقييم بشرية مختلفة. تم تقييم هذه النماذج وفقًا لعدد من الفئات المختلفة ذات الصلة بالأخلاق والسلامة، بما في ذلك:
- أمان المحتوى النصي إلى النصي: تقييم بشري للطلبات التي تغطي سياسات أمان المحتوى، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم والمضايقة والعنف والمحتوى الدموي والكلام الذي يحض على الكراهية
- الأضرار التمثيلية الناتجة عن تحويل النص إلى نص: مقارنة بالأداء في مجموعات بيانات أكاديمية ذات صلة، مثل WinoBias وBBQ Dataset
- الحفظ: تقييم آلي لحفظ بيانات التدريب، بما في ذلك خطر تعرُّض معلومات تحديد الهوية الشخصية
- الضرر على نطاق واسع: اختبارات "القدرات الخطيرة"، مثل المخاطر الكيميائية والبيولوجية والإشعاعية والنووية (CBRN)
نتائج التقييم
تقع نتائج تقييمات الأخلاق والسلامة ضمن الحدود المقبولة لاستيفاء السياسات الداخلية لفئات مثل سلامة الأطفال وسلامة المحتوى والأضرار الناتجة عن التمثيل والحفظ والأضرار على نطاق واسع. بالإضافة إلى التقييمات الداخلية القوية، يتم عرض نتائج قياسات الأداء المعروفة في ما يتعلّق بالسلامة، مثل BBQ وBOLD وWinogender وWinobias وRealToxicity وTruthfulQA.
Gemma 1.0
مقياس الأداء | المقياس | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | المتوسط | 6.86 | 7.90 |
BOLD | 45.57 | 49.08 | |
CrowS-Pairs | top-1 | 45.82 | 51.33 |
BBQ Ambig | لقطة واحدة، أفضل لقطة | 62.58 | 92.54 |
BBQ Disambig | top-1 | 54.62 | 71.99 |
Winogender | top-1 | 51.25 | 54.17 |
TruthfulQA | 44.84 | 31.81 | |
Winobias 1_2 | 56.12 | 59.09 | |
Winobias 2_2 | 91.10 | 92.23 | |
Toxigen | 29.77 | 39.59 |
Gemma 1.1
مقياس الأداء | المقياس | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | المتوسط | 7.03 | 8.04 |
BOLD | 47.76 | ||
CrowS-Pairs | top-1 | 45.89 | 49.67 |
BBQ Ambig | لقطة واحدة، أفضل لقطة | 58.97 | 86.06 |
BBQ Disambig | top-1 | 53.90 | 85.08 |
Winogender | top-1 | 50.14 | 57.64 |
TruthfulQA | 44.24 | 45.34 | |
Winobias 1_2 | 55.93 | 59.22 | |
Winobias 2_2 | 89.46 | 89.2 | |
Toxigen | 29.64 | 38.75 |
الاستخدام والقيود
لهذه النماذج قيود معيّنة يجب أن يكون المستخدمون على دراية بها.
الغرض من الاستخدام
تُستخدم النماذج اللغوية الكبيرة المفتوحة (LLM) في مجموعة واسعة من التطبيقات في مختلف التخصصات والمجالات. إنّ القائمة التالية للاستخدامات المحتملة ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتمَلة التي أخذها صنّاع النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها.
- إنشاء المحتوى والتواصل
- إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء تنسيقات نصوص إبداعية، مثل القصائد والنصوص البرمجية والرموز والنصوص التسويقية ومسودات الرسائل الإلكترونية.
- برامج الدردشة والذكاء الاصطناعي الحواري: تحسين واجهات المحادثة لخدمة العميل أو المساعدين الافتراضيين أو التطبيقات التفاعلية
- تلخيص النصوص: إنشاء ملخّصات موجزة لنصّ أو أبحاث أو تقارير
- الأبحاث والتعليم
- أبحاث معالجة اللغة الطبيعية: يمكن أن تُستخدم هذه النماذج كأساس لتجربة الباحثين لتقنيات معالجة اللغة الطبيعية وتطوير الخوارزميات والمساهمة في تطوير هذا المجال.
- أدوات تعلُّم اللغات: تتيح تجارب تعلُّم تفاعلية للغات، وتساعد في تصحيح الأخطاء النحوية أو توفير تدريبات على الكتابة.
- استكشاف المعرفة: مساعدة الباحثين في استكشاف مجموعات كبيرة من النصوص من خلال إنشاء ملخصات أو الإجابة عن أسئلة حول مواضيع معيّنة
القيود
- بيانات التدريب
- تؤثر جودة بيانات التدريب وتنوعها بشكل كبير في إمكانات النموذج. يمكن أن تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى قيود في ردود النموذج.
- يحدّد نطاق مجموعة بيانات التدريب مجالات المواضيع التي يمكن للنموذج التعامل معها بفعالية.
- السياقات وتعقيد المهام
- تُحقّق النماذج اللغوية الكبيرة أداءً أفضل في المهام التي يمكن صياغة طلبات وتعليمات واضحة لها. قد تكون المهام المفتوحة أو المهام المعقدة للغاية صعبة.
- يمكن أن يتأثر أداء النموذج بكمية السياق المقدَّمة، ويؤدي السياق الأطول بشكل عام إلى نتائج أفضل إلى حدّ معيّن.
- الغموض في اللغة والتفاصيل الدقيقة
- اللغة الطبيعية معقّدة بطبيعتها. قد تواجه النماذج اللغوية الكبيرة صعوبة في فهم الاختلافات الدقيقة أو السخرية أو اللغة المجازية.
- دقة الحقائق
- تنشئ النماذج اللغوية الكبيرة الردود استنادًا إلى المعلومات التي اكتسبتها من مجموعات البيانات التدريبية، ولكنها ليست قواعد معرفة. وقد تنشئ بيانات وقائعية غير صحيحة أو قديمة.
- Common Sense
- تعتمد النماذج اللغوية الكبيرة على الأنماط الإحصائية في اللغة. قد لا يملك الطفل القدرة على تطبيق المنطق السليم في مواقف معيّنة.
الاعتبارات الأخلاقية والمخاطر
يثير تطوير النماذج اللغوية الكبيرة (LLM) العديد من المخاوف الأخلاقية. عند إنشاء نموذج مفتوح، أخذنا في الاعتبار ما يلي بعناية:
- الانحياز والعدالة
- يمكن أن تعكس النماذج اللغوية الكبيرة التي تم تدريبها على بيانات نصية واسعة النطاق من العالم الواقعي أحكامًا مسبقةجتماعية وثقافية مدمجة في مادة التدريب. خضعَت هذه النماذج لفحصٍ دقيقٍ، وتمت معالجة البيانات المُدخلة مسبقًا كما هو موضّح في التقييمات اللاحقة المُدرَجة في هذه البطاقة.
- المعلومات الخاطئة وإساءة الاستخدام
- يمكن إساءة استخدام النصوص اللغوية الكبيرة لإنشاء نص خاطئ أو مضلِّل أو ضار.
- يتم توفير إرشادات للاستخدام المسؤول مع النموذج، اطّلِع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول.
- الشفافية والمساءلة:
- تلخِّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناتها والقيود المفروضة عليها وعمليات التقييم.
- يقدّم النموذج المفتوح المطوَّر بمسؤولية فرصة لمشاركة الابتكار من خلال إتاحة تكنولوجيا النماذج اللغوية الكبيرة للمطوّرين والباحثين في المنظومة المتكاملة للذكاء الاصطناعي.
المخاطر التي تم تحديدها والتدابير التي تم اتّخاذها للحدّ منها:
- استمرار الانحيازات: ننصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النماذج وتحسينها وحالات الاستخدام الأخرى.
- إنشاء محتوى ضار: يجب توفير آليات وإرشادات لضمان سلامة المحتوى. ننصح المطوّرين بتوخّي الحذر وتنفيذ إجراءات وقائية مناسبة لسلامة المحتوى استنادًا إلى سياسات المنتجات الخاصة بهم وحالات استخدام التطبيقات.
- إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وبرامج التعليم المخصّصة للمطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارة للغة الآلية الضخمة. يتم توفير موارد تعليمية وآليات الإبلاغ للمستخدمين من أجل الإبلاغ عن إساءة الاستخدام. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لخدمة Gemma.
- انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات تحديد الهوية الشخصية (PII). ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات الحفاظ على الخصوصية.
المزايا
في وقت الإصدار، توفّر مجموعة النماذج هذه عمليات تنفيذ نماذج لغوية كبيرة مفتوحة عالية الأداء ومصمّمة من الألف إلى الياء لتطوير الذكاء الاصطناعي المسؤول مقارنةً بالنماذج ذات الحجم المماثل.
باستخدام مقاييس تقييم الأداء الموضّحة في هذا المستند، أظهرت هذه النماذج أنّها تحقّق أداءً أفضل من بدائل النماذج المفتوحة الأخرى ذات الحجم المماثل.