بطاقة نموذج FunctionGemma

صفحة النموذج: FunctionGemma

المراجع والمستندات الفنية:

بنود الاستخدام: Terms
المؤلفون: Google DeepMind

معلومات حول الطراز

وصف موجز وتعريف مختصر للمدخلات والمخرجات

الوصف

ملاحظة: تم تصميم FunctionGemma ليتم ضبطه بدقة لتنفيذ مهمة معيّنة تتضمّن استدعاء الدوال، بما في ذلك حالات الاستخدام المتعدّدة الأدوار.

‫FunctionGemma هو نموذج مفتوح وخفيف من Google، تم إنشاؤه كأساس لإنشاء نماذج مخصّصة لاستدعاء الدوال. لا يُفترض استخدام FunctionGemma كنموذج حوار مباشر، وهي مصمَّمة لتقديم أداء عالٍ بعد إجراء المزيد من عمليات الضبط الدقيق، كما هو معتاد في النماذج بهذا الحجم. تم إنشاء FunctionGemma بالاستناد إلى نموذج Gemma 3 270M وباستخدام الأبحاث والتكنولوجيا نفسها المستخدَمة في إنشاء نماذج Gemini، وقد تم تدريبه خصيصًا على تنفيذ طلبات الوظائف. يستخدم النموذج البنية نفسها المستخدَمة في Gemma 3، ولكن بتنسيق مختلف للمحادثات. هذا النموذج مناسب تمامًا لاستدعاء الدوال التي تتضمّن نصوصًا فقط. يسمح حجم النموذج الصغير الفريد بنشره في بيئات ذات موارد محدودة، مثل أجهزة الكمبيوتر المحمولة أو المكتبية أو البنية التحتية السحابية الخاصة بك، ما يتيح الوصول إلى أحدث نماذج الذكاء الاصطناعي ويساعد في تعزيز الابتكار للجميع. بالإضافة إلى ذلك، وكما هو الحال مع نموذج Gemma الأساسي الذي يضم 270 مليون مَعلمة، تم تحسين النموذج ليكون متعدد الاستخدامات للغاية، ويحقق أداءً جيدًا على مجموعة متنوعة من الأجهزة في سيناريوهات المحادثة الواحدة، ولكن يجب ضبطه بدقة على بيانات خاصة بمهمة واحدة أو عدة مهام لتحقيق أفضل دقة في مجالات معيّنة. لتوضيح كيف يمكن أن يحقّق نموذج المَعلمات البالغ عددها 270 مليونًا أداءً عاليًا في مهام سير عمل محدّدة، سلّطنا الضوء على حالتين من حالات الاستخدام في تطبيق Google AI Edge Gallery.

  • Tiny Garden: نموذج تم ضبطه بدقة لتشغيل لعبة تفاعلية يمكن التحكّم بها صوتيًا. يتعامل هذا المكوّن مع منطق اللعبة لإدارة قطعة أرض افتراضية، ويحلّل الأوامر، مثل "ازرع عباد الشمس في الصف العلوي" و "اسقِ الزهور في القطعتين 1 و2"، إلى دوال خاصة بالتطبيق (مثل plant_seed وwater_plots) وإحداثيات الأهداف. ويوضّح ذلك قدرة النموذج على تنفيذ آليات مخصّصة للتطبيقات بدون الاتصال بالخادم.

  • إجراءات على الأجهزة الجوّالة: لمساعدة المطوّرين في إنشاء وكلاء خبراء خاصين بهم، نشرنا مجموعة بيانات ووصفة ضبط دقيق لتوضيح كيفية إجراء ضبط دقيق على FunctionGemma. تترجم هذه الأداة البيانات التي يدخلها المستخدم (مثل "إنشاء حدث في التقويم لتناول الغداء"، "تشغيل ضوء الفلاش") إلى استدعاءات وظائف تؤدي إلى تشغيل أدوات نظام التشغيل Android. توضّح هذه المفكرة التفاعلية كيفية استخدام نموذج FunctionGemma الأساسي وإنشاء عملية ضبط دقيق لـ "إجراءات على الأجهزة الجوّالة" من البداية لاستخدامها في تطبيق معرض Google AI Edge. توضّح حالة الاستخدام هذه قدرة النموذج على العمل كوكيل خاص غير متصل بالإنترنت لتنفيذ مهام على الأجهزة الشخصية.

المدخلات والمخرجات

  • الإدخال:
    • سلسلة نصية، مثل سؤال أو طلب أو مستند سيتم تلخيصه
    • إجمالي سياق الإدخال يبلغ 32 ألف رمز مميّز
  • الناتج:
    • النص الذي يتم إنشاؤه استجابةً للإدخال، مثل إجابة عن سؤال أو ملخّص لمستند
    • إجمالي سياق الناتج يصل إلى 32 ألف رمز مميّز لكل طلب، مع طرح رموز الإدخال الخاصة بالطلب

بيانات النموذج

البيانات المستخدَمة لتدريب النماذج وطريقة معالجتها

مجموعة بيانات التدريب

تم تدريب هذه النماذج على مجموعة بيانات نصية تتضمّن مجموعة متنوعة من المصادر. تم تدريب النموذج باستخدام 6 تريليون رمز مميز. كانت آخر المعلومات المتاحة في بيانات التدريب في أغسطس 2024. في ما يلي المكوّنات الرئيسية:

  • تعريفات الأدوات العامة - واجهات برمجة التطبيقات الشائعة على الويب
  • تفاعلات استخدام الأدوات: تتضمّن هذه التفاعلات مجموعة من الطلبات واستدعاءات الدوال وردود الدوال وردود اللغة الطبيعية من النموذج لتلخيص ردود استدعاءات الدوال أو طلب توضيحات عندما يكون الطلب غامضًا أو غير مكتمل.

المعالجة المُسبقة للبيانات

في ما يلي طرق تنظيف البيانات وفلترتها الرئيسية التي يتم تطبيقها على بيانات التدريب:

  • فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق فلترة صارمة لمواد الاعتداء الجنسي على الأطفال (CSAM) في مراحل متعددة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
  • فلترة البيانات الحسّاسة: في إطار سعينا إلى جعل نماذج Gemma المدرَّبة مسبقًا آمنة وموثوقة، استخدمنا تقنيات مبرمَجة لفلترة بعض المعلومات الشخصية وغيرها من البيانات الحسّاسة من مجموعات التدريب.
  • طُرق إضافية: تتم التصفية استنادًا إلى جودة المحتوى وسلامته بما يتوافق مع سياساتنا.

معلومات التنفيذ

تفاصيل حول الأجزاء الداخلية للنموذج

أجهزة

تم تدريب Gemma باستخدام أجهزة وحدة معالجة الموتّرات (TPU) (TPUv4p وTPUv5p وTPUv5e). يتطلّب تدريب نماذج الرؤية واللغة (VLM) قدرًا كبيرًا من قوة الحوسبة. توفّر وحدات معالجة Tensor، المصمَّمة خصيصًا لعمليات المصفوفات الشائعة في تعلُّم الآلة، العديد من المزايا في هذا المجال:

  • الأداء: تم تصميم وحدات معالجة الموتّرات خصيصًا للتعامل مع العمليات الحسابية الضخمة التي يتطلّبها تدريب النماذج اللغوية الكبيرة المرئية. ويمكنها تسريع عملية التدريب بشكل كبير مقارنةً بوحدات المعالجة المركزية.
  • الذاكرة: غالبًا ما تتضمّن وحدات TPU كميات كبيرة من الذاكرة ذات النطاق الترددي العالي، ما يتيح التعامل مع النماذج الكبيرة وأحجام الدفعات الكبيرة أثناء التدريب. ويمكن أن يؤدي ذلك إلى تحسين جودة النموذج.
  • قابلية التوسّع: توفّر حِزم TPU (مجموعات كبيرة من وحدات TPU) حلاً قابلاً للتوسّع للتعامل مع التعقيد المتزايد للنماذج الأساسية الكبيرة. يمكنك توزيع التدريب على عدة أجهزة TPU لمعالجة البيانات بشكل أسرع وأكثر كفاءة.
  • فعالية التكلفة: في العديد من السيناريوهات، يمكن أن توفّر وحدات معالجة الموتّرات حلاً أكثر فعالية من حيث التكلفة لتدريب النماذج الكبيرة مقارنةً بالبنية الأساسية المستندة إلى وحدة المعالجة المركزية، خاصةً عند مراعاة الوقت والموارد التي يتم توفيرها بسبب سرعة التدريب.
  • تتوافق هذه المزايا مع التزامات Google بالعمل بشكل مستدام.

البرامج

تم التدريب باستخدام JAX ومسارات تعلُّم الآلة. تتيح JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة Tensor، لتدريب النماذج الكبيرة بشكل أسرع وأكثر كفاءة. ‫ML Pathways هي أحدث مبادرة من Google تهدف إلى إنشاء أنظمة ذكاء اصطناعي قادرة على التعميم على مستوى مهام متعددة. وهي مناسبة بشكل خاص للنماذج الأساسية، بما في ذلك النماذج اللغوية الكبيرة مثل هذه.
يتم استخدام JAX وML Pathways معًا كما هو موضح في المستند حول مجموعة نماذج Gemini، "يتيح نموذج البرمجة "وحدة تحكّم واحدة" في Jax وPathways لعملية Python واحدة تنسيق عملية التدريب بأكملها، ما يؤدي إلى تبسيط سير عمل التطوير بشكل كبير".

تقييم

مقاييس تقييم النموذج ونتائجه

نتائج قياس الأداء

Benchmark n-shot الدالة Gemma 270m
BFCL Simple 0-shot 61.6
BFCL Parallel 0-shot 63.5
BFCL Multiple 0-shot 39
BFCL Parallel Multiple 0-shot 29.5
BFCL Live Simple 0-shot 36.2
BFCL Live Parallel 0-shot 25.7
BFCL Live Multiple 0-shot 22.9
BFCL Live Parallel Multiple 0-shot 20.8
مدى صلة BFCL بالموضوع 0-shot 61.1
عدم ملاءمة BFCL 0-shot 70.6

التأثير في الأداء بعد الضبط الدقيق على مجموعة بيانات "الإجراءات على الأجهزة الجوّالة"
لتوضيح قيمة التخصّص في النماذج اللغوية الصغيرة، قارنّا نموذج FunctionGemma الأساسي بالنموذج المضبوط بدقة باستخدام وصفة "الإجراءات على الأجهزة الجوّالة". أدّى الضبط الدقيق إلى تحسين قدرة نموذج FunctionGemma الأساسي بشكل كبير على تحديد طلبات نظام الأجهزة الجوّالة وتنسيقها بشكل صحيح.


الطراز

نتائج التقييم الخاصة بـ "الإجراءات على الأجهزة الجوّالة"

نموذج Base FunctionGemma

58%

تحسين "الإجراءات على الأجهزة الجوّالة"

85%

أداء نماذج Gemma 270m المعدَّلة على الجهاز
قيّمنا حالات الاستخدام المعدَّلة على هاتف Samsung S25 Ultra لتقييم وقت الاستجابة وحجم الذاكرة على الجهاز.

  • السياق: 512 رمزًا مميزًا للتعبئة المسبقة و32 رمزًا مميزًا للفك.
  • الأجهزة: وحدة المعالجة المركزية في هاتف S25 Ultra باستخدام LiteRT XNNPACK delegate مع 4 سلاسل محادثات

أداء الإجراءات على الأجهزة الجوّالة


الخادم الخلفي

مخطط التكميم

طول السياق

التعبئة المسبقة (الرموز المميزة في الثانية)

فك الترميز (الرموز المميزة في الثانية)

الوقت المستغرَق حتى ظهور أول رمز مميز (بالثواني)

حجم النموذج (ميغابايت)

الحد الأقصى لذاكرة RSS (ميغابايت)

وحدة المعالجة المركزية

dynamic_int8

1024

1718

125.9

0.3

288

551

Tiny Garden On Device Performance


الخادم الخلفي

مخطط التكميم

طول السياق

التعبئة المسبقة (الرموز المميزة في الثانية)

فك الترميز (الرموز المميزة في الثانية)

الوقت المستغرَق حتى ظهور أول رمز مميز (بالثواني)

حجم النموذج (ميغابايت)

الحد الأقصى لذاكرة RSS (ميغابايت)

وحدة المعالجة المركزية

dynamic_int8

1024

1743

125.7

0.3

288

549

الأخلاقيات والأمان

منهجية تقييم الأخلاقيات والأمان والنتائج

أسلوب التقييم

تشمل طرق التقييم التي نستخدمها التقييمات المنظَّمة واختبارات الفريق الأحمر الداخلية لسياسات المحتوى ذات الصلة. وقد نفّذت هذه العملية عدة فرق مختلفة، وكان لكل فريق أهداف مختلفة ومقاييس تقييم بشرية مختلفة. تم تقييم هذه النماذج وفقًا لعدد من الفئات المختلفة ذات الصلة بالأخلاقيات والأمان، بما في ذلك:

  • سلامة الأطفال: تقييم الطلبات من نص إلى نص ومن صورة إلى نص التي تغطي سياسات سلامة الأطفال، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم
  • أمان المحتوى: تقييم الطلبات من نص إلى نص ومن صورة إلى نص التي تغطي سياسات الأمان، بما في ذلك التحرش والعنف والمشاهد الدموية وخطاب الكراهية
  • الأضرار التمثيلية: تقييم الطلبات من نص إلى نص ومن صورة إلى نص التي تغطي سياسات السلامة، بما في ذلك التحيز والقوالب النمطية والارتباطات الضارة أو عدم الدقة

نتائج التقييم

في جميع مجالات اختبار الأمان، لاحظنا تحسّنًا كبيرًا في فئات أمان الأطفال وأمان المحتوى والأضرار التمثيلية مقارنةً بنماذج Gemma السابقة. تم إجراء جميع الاختبارات بدون فلاتر أمان لتقييم قدرات النموذج وسلوكياته. لم ينتج النموذج أي انتهاكات للسياسات، وحقّق تحسينات كبيرة في الأداء مقارنةً بنماذج Gemma السابقة في ما يتعلق بالاستنتاجات غير المستندة إلى بيانات. كانت إحدى القيود المفروضة على تقييماتنا هي أنّها كانت تتضمّن طلبات باللغة الإنجليزية فقط.

الاستخدام والقيود

وتتضمّن هذه النماذج بعض القيود التي يجب أن يكون المستخدمون على دراية بها.

الاستخدام المقصود

هذا النموذج ليس مخصّصًا للاستخدام كنموذج حوار مباشر.
تتوفّر مجموعة واسعة من التطبيقات للنماذج اللغوية الكبيرة (LLM) المفتوحة المصدر في مختلف المجالات. إنّ قائمة الاستخدامات المحتملة التالية ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتملة التي أخذها منشئو النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها.

  • صناعة المحتوى والتواصل
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء صيغ نصوص إبداعية، مثل القصائد والنصوص والرموز ونسخ التسويق ومسودات الرسائل الإلكترونية.
    • روبوتات الدردشة والذكاء الاصطناعي الحواري: تتيح هذه الأدوات إنشاء واجهات حوارية لخدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية.
    • تلخيص النصوص: إنشاء ملخّصات موجزة لمجموعة من النصوص أو الأوراق البحثية أو التقارير
  • البحث والتعليم
    • أبحاث معالجة اللغات الطبيعية (NLP): يمكن أن تشكّل هذه النماذج أساسًا للباحثين لتجربة تقنيات معالجة اللغات الطبيعية وتطوير الخوارزميات والمساهمة في تطوير هذا المجال.
    • أدوات تعلُّم اللغات: تتيح تجارب تفاعلية لتعلُّم اللغات، ما يساعد في تصحيح الأخطاء النحوية أو توفير تدريبات على الكتابة.
    • استكشاف المعرفة: مساعدة الباحثين في استكشاف كميات كبيرة من النصوص من خلال إنشاء ملخّصات أو الإجابة عن أسئلة حول مواضيع معيّنة

القيود

  • بيانات التدريب
    • تؤثر جودة بيانات التدريب وتنوّعها بشكل كبير في إمكانات النموذج. قد تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى قيود في ردود النموذج.
    • يحدّد نطاق مجموعة بيانات التدريب مجالات الموضوعات التي يمكن للنموذج التعامل معها بفعالية.
  • السياق ومدى تعقيد المهمة
    • تكون النماذج أفضل في تنفيذ المهام التي يمكن صياغتها باستخدام طلبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المعقّدة للغاية صعبة.
    • يمكن أن يتأثر أداء النموذج بكمية السياق المقدَّم (يؤدي السياق الأطول عمومًا إلى نتائج أفضل، وذلك حتى حدّ معيّن).
  • غموض اللغة ودقتها
    • اللغة الطبيعية معقّدة بطبيعتها. قد تواجه النماذج صعوبة في فهم الفروق الدقيقة أو السخرية أو اللغة المجازية.
  • المحتوى يتضمّن معلومات صحيحة
    • تنشئ النماذج الردود استنادًا إلى المعلومات التي تعلّمتها من مجموعات بيانات التدريب، ولكنّها ليست قواعد بيانات. وقد تنشئ هذه النماذج جملًا واقعية غير صحيحة أو قديمة.
  • Common Sense
    • تعتمد النماذج على الأنماط الإحصائية في اللغة. وقد لا تكون قادرة على تطبيق المنطق السليم في مواقف معيّنة.

الاعتبارات الأخلاقية والمخاطر

يثير تطوير النماذج اللغوية الكبيرة (LLM) العديد من المخاوف الأخلاقية. عند إنشاء نموذج مفتوح المصدر، أخذنا في الاعتبار ما يلي:

  • الانحياز والعدالة
    • يمكن أن تعكس النماذج اللغوية الكبيرة التي تم تدريبها على بيانات نصية واسعة النطاق من العالم الحقيقي الانحيازات الاجتماعية والثقافية المضمّنة في مواد التدريب. خضعت هذه النماذج لتدقيق دقيق، وتمت معالجة البيانات مسبقًا على النحو الموضّح، وتم تسجيل التقييمات اللاحقة في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة:
    • تلخّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وقدراتها وقيودها وعمليات التقييم.
    • يتيح النموذج المفتوح المصدر الذي تم تطويره بشكل مسؤول فرصة مشاركة الابتكار من خلال إتاحة تكنولوجيا النماذج اللغوية الكبيرة للمطوّرين والباحثين في جميع أنحاء منظومة الذكاء الاصطناعي المتكاملة.

المخاطر المحدّدة وإجراءات التخفيف منها:

  • استمرار التحيزات: ننصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيزات أثناء تدريب النماذج وضبطها بدقة وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: من الضروري توفير آليات وإرشادات لضمان سلامة المحتوى. ننصح المطوّرين بتوخّي الحذر وتنفيذ تدابير وقائية مناسبة للحفاظ على سلامة المحتوى استنادًا إلى سياسات منتجاتهم وحالات استخدام تطبيقاتهم المحدّدة.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتثقيف المطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارة لنماذج اللغات الكبيرة. يتم توفير مراجع تعليمية وآليات إبلاغ للمستخدمين للإشارة إلى حالات إساءة الاستخدام. تم توضيح الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لنماذج Gemma.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات تحديد الهوية الشخصية (PII). ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات الحفاظ على الخصوصية.

المزايا

عند الإصدار، توفّر هذه المجموعة من النماذج عمليات تنفيذ مفتوحة المصدر للنماذج اللغوية الكبيرة العالية الأداء والمصمَّمة من البداية لتطوير الذكاء الاصطناعي المسؤول مقارنةً بالنماذج ذات الأحجام المماثلة.