صفحة النموذج: Gemma
الموارد والمستندات الفنية:
بنود الاستخدام: البنود
المؤلفون: Google
معلومات حول الطراز
وصف موجز وتعريف موجز للمدخلات والمخرجات.
الوصف
Gemma هي مجموعة من أحدث النماذج المتطوّرة والخفيفة المتاحة للجميع من Google، تم تصميمهما بالاستناد إلى الأبحاث والتكنولوجيا نفسها المستخدَمة لإنشاء نماذج Gemini. فهي عبارة عن نماذج لغوية كبيرة تستخدم "تحويل النص إلى نص" وفك الترميز فقط، وتتوفر باللغة الإنجليزية بأوزان مفتوحة لكل من الصيغ المدرّبة مسبقًا والمتغيرات المصممة وفقًا للتعليمات. تناسب نماذج Gemma مجموعة متنوعة من مهام إنشاء النصوص، بما في ذلك للإجابة عن الأسئلة والتلخيص والاستنتاج. حجمها صغير نسبيًا تجعل من الممكن نشرها في بيئات ذات موارد محدودة مثل كمبيوتر محمول أو كمبيوتر مكتبي أو بنيتك الأساسية الخاصة بالسحابة الإلكترونية، ما يتيح للجميع الوصول إلى أحدث نماذج الذكاء الاصطناعي والمساعدة في تعزيز الابتكار للجميع.
المُدخلات والمُخرجات
- الإدخال: سلسلة نصية، مثل سؤال أو طلب أو مستند الملخصة.
- الإخراج: يتم إنشاء نص باللغة الإنجليزية ردًا على الإدخال، مثل. كإجابة على سؤال، أو ملخص لمستند.
معلومات الكتاب
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
بيانات النموذج
يشير ذلك المصطلح إلى البيانات المستخدَمة لتدريب النماذج وطريقة معالجة البيانات.
مجموعة بيانات التدريب
تم تدريب هذه النماذج على مجموعة بيانات تضم بيانات نصية تتضمن مجموعة متنوعة من المصادر. تم تدريب النموذج 27 مليار باستخدام 13 تريليون رمز مميز، وتم استخدام نموذج الـ 9 مليار باستخدام 8 تريليون رمز مميز، وتم تدريب نموذج 2 مليار باستخدام 2 تريليون رمز مميز. في ما يلي المكونات الرئيسية:
- مستندات الويب: تضمن المجموعة المتنوعة من نصوص الويب إظهار النموذج إلى مجموعة واسعة من الأساليب اللغوية والموضوعات والمفردات بشكل أساسي المحتوى باللغة الإنجليزية.
- التعليمة البرمجية: يساعد عرض النموذج على التعليمات البرمجية في التعرف على بنية وأنماط للغات البرمجة، مما يحسن من قدرتها على إنشاء التعليمات البرمجية أو فهم الأسئلة المتعلقة بالتعليمات البرمجية.
- الرياضيات: التدريب على النصوص الرياضية يساعد النموذج في التعلُّم المنطقي الاستنتاج والتمثيل الرمزي ومعالجة الاستعلامات الرياضية.
يعد الجمع بين مصادر البيانات المتنوعة هذه أمرًا بالغ الأهمية لتدريب نموذج لغوي يمكنه التعامل مع مجموعة واسعة من المهام والنصوص المختلفة والتنسيقات.
المعالجة المسبقة للبيانات
فيما يلي طرق تنظيف البيانات وتصفيتها الرئيسية المطبقة على التدريب البيانات:
- فلترة مواد الاعتداء الجنسي على الأطفال: كانت الفلترة الصارمة لمواد الاعتداء الجنسي على الأطفال تطبيقها على مراحل متعددة في عملية إعداد البيانات للتأكد من استبعاد المحتوى الضار وغير القانوني.
- تصفية البيانات الحساسة: كجزء من جعل نماذج Gemma المدرّبة مسبقًا آمنة تم استخدام أساليب آلية موثوقة لتصفية بيانات بعض والمعلومات والبيانات الحساسة الأخرى من مجموعات التدريب.
- طرق إضافية: الفلترة استنادًا إلى جودة المحتوى وأمانه بما يتوافق مع سياساتنا.
معلومات التنفيذ
تفاصيل حول التصميم الداخلي للنموذج.
أجهزة
تدربت "جيما" على استخدام أحدث جيل من جهاز وحدة معالجة المستشعر (TPU) (TPUv5p).
يتطلب تدريب النماذج اللغوية الكبيرة قوة حسابية كبيرة. وحدات معالجة الموتّرات مصممة خصيصًا لعمليات المصفوفة الشائعة في التعلم الآلي، توفر مزايا عديدة في هذا المجال:
- الأداء: تم تصميم وحدات معالجة الموتّرات خصيصًا لمعالجة العمليات الحسابية الضخمة في تدريب النماذج اللغوية الكبيرة. يمكنهم تسريع التدريب بشكل كبير مقارنة وحدات المعالجة المركزية (CPU).
- الذاكرة: غالبًا ما تكون وحدات معالجة الموتّرات مزوّدة بكميات كبيرة من الذاكرة ذات معدّل نقل البيانات العالي، ما يتيح للتعامل مع النماذج الكبيرة وأحجام الدفعة أثناء التدريب. يمكن أن تحسين جودة النماذج.
- قابلية التوسع: توفر لوحات TPU (مجموعات كبيرة من وحدات معالجة الموتّرات) حلاً قابلاً للتوسع التعامل مع التعقيد المتزايد لنماذج الأساس الكبيرة. يمكنك توزيع والتدريب على العديد من أجهزة معالجة الموتّرات لإجراء معالجة أسرع وأكثر كفاءة.
- الفعالية من حيث التكلفة: في العديد من السيناريوهات، يمكن أن توفر وحدات معالجة الموتّرات طريقة أكثر فعالية من حيث التكلفة لتدريب النماذج الكبيرة مقارنةً بالبنية التحتية القائمة على وحدة المعالجة المركزية (CPU)، خاصة عند التفكير في الوقت والموارد التي تم توفيرها بسبب التدريب.
- تتماشى هذه المزايا مع تلتزم Google بالعمل بطريقة مستدامة.
البرامج
وتم إجراء التدريب باستخدام قناتَي JAX وML Pathways.
تسمح وكالة JAX للباحثين بالاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة الموتّرات، للحصول على تدريب أسرع وأكثر فعالية للنماذج الكبيرة.
مشروع ML Pathways هو أحدث الجهود التي تبذلها Google لتطوير أنظمة ذكية بشكل مصطنع قادر على التعميم عبر مهام متعددة. هذا مناسب بشكل خاص نماذج التأسيس، بما في ذلك النماذج اللغوية الكبيرة مثل هذه.
ويتم استخدام مسارات JAX وML معًا كما هو موضح في بحث عن مجموعة نماذج Gemini "الأغنية وحدة التحكّم لترميز Jax وPathways، يُتيح صفحة Python واحدة لتنظيم عملية التدريب بأكملها، مما يؤدي إلى تبسيط سير عمل التطوير".
التقييم
مقاييس ونتائج تقييم النموذج
النتائج المعيارية
تم تقييم هذه النماذج مقابل مجموعة كبيرة من مجموعات البيانات المختلفة لتغطية الجوانب المختلفة لإنشاء النص:
مقياس الأداء | المقياس | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5 لقطات، أعلى 1 | 51.3 | 71.3 | 75.2 |
HellaSwag | 10 لقطات | 73.0 | 81.9 | 86.4 |
PIQA | 0-لقطة | 77.8 | 81.7 | 83.2 |
SocialIQA | 0-لقطة | 51.9 | 53.4 | 53.7 |
BoolQ | 0-لقطة | 72.5 | 84.2 | 84.8 |
WinoGrande | نتيجة جزئية | 70.9 | 80.6 | 83.7 |
ARC-e | 0-لقطة | 80.1 | 88.0 | 88.6 |
ARC-c | 25 لقطة | 55.4 | 68.4 | 71.4 |
TriviaQA | 5 لقطات | 59.4 | 76.6 | 83.7 |
الأسئلة الطبيعية | 5 لقطات | 16.7 | 29.2 | 34.5 |
HumanEval | Pass@1 | 17.7 | 40.2 | 51.8 |
MBPP | 3 لقطات | 29.6 | 52.4 | 62.6 |
بروتوكول GSM8K | 5-shot، maj@1 | 23.9 | 68.6 | 74.0 |
MATH | 4 لقطات | 15 | 36.6 | 42.3 |
AGIEval | 3-5 لقطات | 30.6 | 52.8 | 55.1 |
DROP | لقطة 3، F1 | 52.0 | 69.4 | 72.2 |
مقعد كبير | 3-shot، CoT | 41.9 | 68.2 | 74.9 |
الأخلاقيات والسلامة
نهج تقييم الأخلاقيات والأمان والنتائج.
نهج التقييم
وتشمل طرق التقييم لدينا التقييمات المهيكلة والفريق الأحمر الداخلي اختبار سياسات المحتوى ذات الصلة تم إجراء الفريق الأحمر بواسطة عدد من فرق مختلفة، ولكل منها أهداف ومقاييس تقييم بشري مختلفة. هذه النماذج مقارنةً بعدد من الفئات المختلفة ذات الصلة الأخلاقيات والسلامة، بما في ذلك:
- تحويل النص إلى نصوص بأمان: فريق المراجعين في المطالبات التي تتناول الأمان السياسات، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم والتحرش والعنف والمحتوى الدموي الذي يحض على الكراهية والكلام الذي يحض على الكراهية
- الضرر التمثيلي لتحويل النص إلى نص: مقارنة الأداء الأكاديمي ذي الصلة مجموعات البيانات مثل WinoBias وBBQ Dataset.
- التذكّر: تقييم آلي لحفظ بيانات التدريب، بما في ذلك من مخاطر الكشف عن معلومات تحديد الهوية الشخصية.
- الضرر على نطاق واسع: اختبارات "للإمكانات الخطيرة" مثل المواد الكيميائية المخاطر البيولوجية والإشعاعية والنووية (CBRN).
نتائج التقييم
نتائج تقييمات الأخلاقيات وتقييمات السلامة ضمن المعايير المقبولة للالتزام بالسياسات الداخلية للفئات مثل "الأطفال" السلامة وأمان المحتوى والأضرار التمثيلية والحفظ والضرر على نطاق واسع بالإضافة إلى التقييمات الداخلية القوية، يمكن معرفة نتائج مقاييس أداء مثل للشواء، BOLD، Winogender ، Winobias، RealToxicity ، TrethfulQA كما هو موضح هنا.
Gemma 2.0
مقياس الأداء | المقياس | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | المتوسط | 8.16 | 8.25 | 8.84 |
أزواج الغربان | top-1 | 37.67 | 37.47 | 36.67 |
حفلة شواء | لقطة واحدة، أعلى 1 | 83.20 | 88.58 | 85.99 |
توضيح كيفية الشواء | top-1 | 69.31 | 82.67 | 86.94 |
متعدد الجنس | top-1 | 52.91 | 79.17 | 77.22 |
TruthfulQA | 43.72 | 50.27 | 51.60 | |
Winobias 1_2 | 59.28 | 78.09 | 81.94 | |
Winobias 2_2 | 88.57 | 95.32 | 97.22 | |
Toxigen | 48.32 | 39.30 | 38.42 |
تقييمات القدرات الخطيرة
نهج التقييم
لقد قيّمنا مجموعة من القدرات الخطيرة:
- الأمن الإلكتروني المسيء: لتقييم احتمال إساءة استخدام النموذج في في سياقات الأمن السيبراني، استخدمنا كليهما المتاحَين للجميع منصات التقاط العلم (CTF) مثل InterCode-CTF وHack the Box، بالإضافة إلى تحديات CTF التي تم تطويرها داخليًا. تقيس هذه التقييمات على استغلال نقاط الضعف والحصول على وصول غير مصرح به إلى محاكاة البيئات.
- الانتشار الذاتي: لقد قيّمنا قدرة النموذج على الانتشار الذاتي من خلال تصميم المهام التي تتضمن الحصول على الموارد، وإنشاء رموز للأنظمة البعيدة والتفاعل معها. تقوم هذه التقييمات بتقييم قدرة النموذج على التكاثر والانتشار بشكل مستقل.
- الإقناع: لتقييم قدرة النموذج على الإقناع المخادع، أجرينا دراسات الإقناع البشري. تضمنت هذه الدراسات السيناريوهات التي تقيس قدرة النموذج على بناء علاقة والتأثير والمعتقدات ويستدعي إجراءات محددة من المشاركين من البشر.
نتائج التقييم
يتم وصف جميع التقييمات بالتفصيل في تقييم نماذج Frontier لتعزيز القدرات الخطيرة وباختصار في تقرير Gemma 2 الفني
التقييم | الإمكانية | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | الأمن السيبراني مسيء | تحديات على مدار الساعة طيلة أيام الأسبوع |
CTF الداخلي | الأمن السيبراني مسيء | تحديات 1/13 |
لعبة Hack the Box | الأمن السيبراني مسيء | تحديات 0/13 |
التحذير المبكر بشأن الانتشار الذاتي | الانتشار الذاتي | تحديات 1/10 |
تعويذة مسيئة | الإقناع | النسبة المئوية للمشاركين الذين يوافقون على ما يلي: 81٪ مثير للاهتمام، 75٪ سيتحدثون مرة أخرى، تم إجراء اتصالات شخصية بنسبة 80% |
النقر على "الروابط" | الإقناع | 34٪ من المشاركين |
العثور على معلومات | الإقناع | 9٪ من المشاركين |
تشغيل الرمز | الإقناع | 11٪ من المشاركين |
المحادثات المالية | الإقناع | متوسط التبرعات بقيمة 3.72 جنيه إسترليني |
شبكة الكذب | الإقناع | 18% يعني الانتقال نحو الاعتقاد الصحيح، و1% يعني الانتقال نحو اعتقاد غير صحيح |
الاستخدام والقيود
هذه النماذج لها قيود معينة يجب أن يكون المستخدمون على دراية بها.
الاستخدام المقصود
للنماذج اللغوية الكبيرة (LLM) مجموعة كبيرة من التطبيقات في مختلف مختلف الصناعات والمجالات. القائمة التالية للاستخدامات المحتملة ليست وشاملة. تهدف هذه القائمة إلى توفير معلومات سياقية حول حالات الاستخدام المحتملة التي اعتبرها منشئو النماذج كجزء من النموذج التدريب والتطوير.
- إنشاء المحتوى والتواصل معه
- إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء تنسيقات نصوص إبداعية مثل القصائد والنصوص والرموز البرمجية والنصوص التسويقية ومسودّات الرسائل الإلكترونية
- روبوتات الدردشة والذكاء الاصطناعي الحواري: تعزيز واجهات المحادثة للعملاء أو خدمات مساعدين افتراضيين أو تطبيقات تفاعلية.
- تلخيص النص: إنشاء ملخّصات موجزة لمجموعة النص والأبحاث أو الأوراق أو التقارير.
- الأبحاث والتعليم
- أبحاث معالجة اللغات الطبيعية (NLP): يمكن أن تكون هذه النماذج بمثابة للباحثين لتجربة تقنيات معالجة اللغات الطبيعية وتطوير والخوارزميات، والمساهمة في تقدم هذا المجال.
- أدوات تعلّم اللغات: إتاحة تجارب تعلُّم اللغات التفاعلية المساعدة في تصحيح القواعد النحوية أو تقديم التدرّب على الكتابة.
- استكشاف المعرفة: مساعدة الباحثين في استكشاف كميات كبيرة من النصوص من خلال إنشاء ملخّصات أو الإجابة عن أسئلة حول مواضيع محدّدة
القيود
- بيانات التدريب
- تؤثر جودة وتنوع بيانات التدريب بشكل كبير قدرات النموذج. يمكن أن تؤدي التحيزات أو الفجوات في بيانات التدريب إلى القيود في استجابات النموذج.
- ويحدد نطاق مجموعة بيانات التطبيق مجالات الموضوع التي يمكن للنموذج التعامل معها بشكل فعال.
- السياق وتعقيد المهام
- تكون النماذج اللغوية الكبيرة أفضل في المهام التي يمكن وضعها في إطار بمطالبات واضحة على التعليمات قد تكون المهام المفتوحة أو المعقدة للغاية صعبة.
- يمكن أن يتأثر أداء النموذج بحجم السياق المتوفر. (يؤدي السياق الأطول بشكل عام إلى مخرجات أفضل، وصولاً إلى نقطة معينة).
- غموض اللغة والفروق الدقيقة
- اللغة الطبيعية معقّدة بطبيعتها. قد يصعب على النماذج اللغوية الكبيرة استيعاب المحتوى الفروق الطفيفة أو السخرية أو اللغة المجازية.
- دقة الوقائع
- تنشئ النماذج اللغوية الكبيرة ردودًا استنادًا إلى المعلومات التي تعلّمَتها من التطبيق، لكنها ليست قواعد معرفية. قد ينشئون عبارات واقعية غير صحيحة أو قديمة
- المنطق السليم
- تعتمد النماذج اللغوية الكبيرة على أنماط إحصائية في اللغة. قد يفتقرون إلى القدرة تطبيق الاستدلال المنطقي في مواقف معينة.
الاعتبارات الأخلاقية والمخاطر
إنّ تطوير النماذج اللغوية الكبيرة (LLM) يثير عدة مخاوف أخلاقية. عند إنشاء نموذج مفتوح، يتم أخذ ما يلي في الاعتبار بعناية:
- التحيز والإنصاف
- يمكن للنماذج اللغوية الكبيرة المدربة على بيانات نصية واسعة النطاق من العالم الواقعي أن تعكس قيمًا اجتماعية ثقافية. والتحيزات المضمنة في المواد التدريبية. خضعت هذه النماذج لدقة التدقيق والمعالجة المسبقة للبيانات الموصوفة والتقييمات الخلفية تم الإبلاغ عنها في هذه البطاقة.
- المعلومات الخاطئة وإساءة الاستخدام
- يمكن إساءة استخدام النماذج اللغوية الكبيرة لإنشاء نص غير صحيح أو مضلِّل أو ضار.
- يتم تقديم إرشادات للاستخدام المسؤول مع النموذج، راجع مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤولة:
- الشفافية والمساءلة:
- تلخّص بطاقة النموذج هذه تفاصيل النماذج والهندسة المعمارية والإمكانات والقيود وعمليات التقييم.
- يتيح النموذج المفتوح الذي تم تطويره بشكلٍ مسؤول فرصة مشاركة الابتكار من خلال إتاحة تكنولوجيا النموذج اللغوي الكبير للمطوّرين والباحثين على مستوى منظومة الذكاء الاصطناعي المتكاملة
المخاطر التي تم تحديدها وتقليلها:
- استمرار التحيزات: يتم تشجيعه على إجراء مراقبة مستمرة (باستخدام مقاييس التقييم، والمراجعة التي يجريها فريق المراجعين) واستكشاف نزع التحيز والتقنيات المختلفة أثناء تدريب النموذج والضبط الدقيق وحالات الاستخدام الأخرى.
- إنشاء المحتوى الضار: الآليات والإرشادات المتعلّقة بأمان المحتوى ضرورية. ننصح المطوّرين بتوخي الحذر وتنفيذ الإجراءات. إجراءات الوقاية المناسبة لأمان المحتوى استنادًا إلى سياسات المنتجات المحدّدة التي يتّبعونها وحالات استخدام التطبيق.
- إساءة الاستخدام لأغراض ضارة: القيود الفنية وقيود المطوّرين يمكن أن يساعد تعريف المستخدمين النهائيين في الحدّ من احتمالات التطبيقات الضارة للنماذج اللغوية الكبيرة. الموارد التعليمية وآليات الإبلاغ التي تتيح للمستخدمين الإبلاغ عن حالات إساءة الاستخدام المقدمة. يتم توضيح الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لـ Gemma
- انتهاكات الخصوصية: تدريب النماذج على البيانات التي تمت فلترتها لإزالة معلومات تحديد الهوية الشخصية (معلومات تحديد الهوية الشخصية). نشجّع المطوّرين على الالتزام ولوائح الخصوصية بأساليب الحفاظ على الخصوصية.
المزايا
في وقت الإصدار، توفر مجموعة النماذج هذه الأداء المفتوح من عمليات تنفيذ النماذج اللغوية الكبيرة المصممة من البداية للمسئولية يتم تطوير الذكاء الاصطناعي (AI) مقارنةً بالنماذج ذات الأحجام المشابهة.
باستخدام مقاييس تقييم قياس الأداء الموضحة في هذا المستند، تحدد هذه النماذج تقديم أداء أفضل من النماذج المفتوحة الأخرى ذات الحجم المماثل والبدائل.