بطاقة نموذج FunctionGemma

صفحة النموذج: FunctionGemma

المراجع والمستندات الفنية:

بنود الاستخدام: Terms
المؤلفون: Google DeepMind

معلومات حول الطراز

وصف موجز وتعريف مختصر للمدخلات والمخرجات

الوصف

ملاحظة: تم تصميم FunctionGemma ليتم ضبطه بدقة لتنفيذ مهمة معيّنة تتضمّن استدعاء الدوال، بما في ذلك حالات الاستخدام المتعدّدة الأدوار.

‫FunctionGemma هو نموذج مفتوح وخفيف من Google، تم إنشاؤه كأساس لإنشاء نماذج مخصّصة لاستدعاء الدوال. لا يُفترض استخدام FunctionGemma كنموذج حوار مباشر، وهي مصمَّمة لتقديم أداء عالٍ بعد إجراء المزيد من عمليات الضبط الدقيق، كما هو معتاد في النماذج بهذا الحجم. تم إنشاء FunctionGemma بالاستناد إلى نموذج Gemma 3 270M وباستخدام الأبحاث والتكنولوجيا نفسها المستخدَمة في إنشاء نماذج Gemini، وتم تدريبه خصيصًا على تنفيذ طلبات الوظائف. يستخدم النموذج البنية نفسها المستخدَمة في Gemma 3، ولكن بتنسيق مختلف للمحادثات. هذا النموذج مناسب تمامًا لاستدعاء الدوال التي تتضمّن نصوصًا فقط. يسمح حجم النموذج الصغير الفريد بنشره في بيئات ذات موارد محدودة، مثل أجهزة الكمبيوتر المحمولة أو المكتبية أو البنية التحتية السحابية الخاصة بك، ما يتيح الوصول إلى أحدث نماذج الذكاء الاصطناعي ويساعد في تعزيز الابتكار للجميع. بالإضافة إلى ذلك، وكما هو الحال مع نموذج Gemma الأساسي بحجم 270 مليون مَعلمة، تم تحسين النموذج ليكون متعدد الاستخدامات للغاية، ويحقق أداءً جيدًا على مجموعة متنوعة من الأجهزة في سيناريوهات المحادثة الواحدة، ولكن يجب ضبطه بدقة على بيانات خاصة بمهمة واحدة أو مهام متعددة لتحقيق أفضل دقة في مجالات معيّنة. لتوضيح كيف يمكن أن يحقّق نموذج المَعلمات البالغ عددها 270 مليونًا أداءً عاليًا في مهام سير عمل محدّدة، سلّطنا الضوء على حالتين من حالات الاستخدام في تطبيق Google AI Edge Gallery.

  • Tiny Garden: نموذج تم ضبطه بدقة لتشغيل لعبة تفاعلية يمكن التحكّم بها صوتيًا. يتعامل هذا المكوّن مع منطق اللعبة لإدارة قطعة أرض افتراضية، ويحلّل الأوامر مثل "ازرع عباد الشمس في الصف العلوي" و "اسقِ الزهور في القطعتين 1 و2" إلى دوال خاصة بالتطبيق (مثل plant_seed وwater_plots) ويحدّد الأهداف. ويوضّح ذلك قدرة النموذج على تشغيل آليات مخصّصة للتطبيقات بدون الاتصال بالخادم.

  • إجراءات على الأجهزة الجوّالة: لمساعدة المطوّرين في إنشاء وكلاء خبراء خاصين بهم، نشرنا مجموعة بيانات ووصفة ضبط دقيق لتوضيح كيفية إجراء ضبط دقيق على FunctionGemma. تترجم هذه النماذج البيانات التي يدخلها المستخدم (مثل "إنشاء حدث في التقويم لتناول الغداء"، "تشغيل ضوء الفلاش") إلى استدعاءات وظائف تؤدي إلى تشغيل أدوات نظام التشغيل Android. توضّح هذه المفكرة التفاعلية كيفية استخدام نموذج FunctionGemma الأساسي وإنشاء عملية ضبط دقيق من البداية لميزة "الإجراءات على الأجهزة الجوّالة" لاستخدامها في تطبيق معرض Google AI Edge. يوضّح هذا الاستخدام قدرة النموذج على العمل كوكيل خاص غير متصل بالإنترنت لتنفيذ مهام على الأجهزة الشخصية.

المدخلات والمخرجات

  • الإدخال:
    • سلسلة نصية، مثل سؤال أو طلب أو مستند يجب تلخيصه
    • إجمالي سياق الإدخال يبلغ 32 ألف رمز مميّز
  • الناتج:
    • النص الذي تم إنشاؤه استجابةً للإدخال، مثل إجابة عن سؤال أو ملخّص لمستند
    • إجمالي سياق الناتج يصل إلى 32 ألف رمز مميّز لكل طلب، مع طرح رموز الإدخال الخاصة بالطلب

بيانات الطراز

البيانات المستخدَمة لتدريب النماذج وطريقة معالجتها

مجموعة بيانات التدريب

تم تدريب هذه النماذج على مجموعة بيانات نصية تتضمّن مجموعة متنوعة من المصادر. تم تدريب النموذج باستخدام 6 تريليون رمز مميز. كانت آخر المعلومات المتاحة في بيانات التدريب في أغسطس 2024. في ما يلي المكوّنات الرئيسية:

  • تعريفات الأدوات العامة - واجهات برمجة التطبيقات الشائعة على الويب
  • تفاعلات استخدام الأدوات: تتضمّن هذه التفاعلات مجموعة من الطلبات واستدعاءات الدوال وردود الدوال وردود اللغة الطبيعية من النموذج لتلخيص ردود استدعاءات الدوال أو طلب توضيحات عندما يكون الطلب غامضًا أو غير مكتمل.

المعالجة المُسبقة للبيانات

في ما يلي طرق تنظيف البيانات وفلترتها الرئيسية التي يتم تطبيقها على بيانات التدريب:

  • فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق فلترة صارمة لمواد الاعتداء الجنسي على الأطفال في مراحل متعددة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
  • فلترة البيانات الحسّاسة: في إطار سعينا إلى جعل نماذج Gemma المدرَّبة مسبقًا آمنة وموثوقة، استخدمنا تقنيات مبرمَجة لفلترة بعض المعلومات الشخصية وغيرها من البيانات الحسّاسة من مجموعات التدريب.
  • طُرق إضافية: الفلترة استنادًا إلى جودة المحتوى وسلامته بما يتوافق مع سياساتنا

معلومات التنفيذ

تفاصيل حول الأجزاء الداخلية للنموذج

أجهزة

تم تدريب Gemma باستخدام أجهزة وحدة معالجة الموتّرات (TPU) (TPUv4p وTPUv5p وTPUv5e). يتطلّب تدريب نماذج الرؤية واللغة (VLM) قدرة حاسوبية كبيرة. توفّر وحدات معالجة Tensor، المصمَّمة خصيصًا لعمليات المصفوفات الشائعة في تعلُّم الآلة، العديد من المزايا في هذا المجال:

  • الأداء: تم تصميم وحدات معالجة الموتّرات خصيصًا للتعامل مع العمليات الحسابية الضخمة اللازمة لتدريب النماذج اللغوية المرئية الكبيرة. ويمكنها تسريع عملية التدريب بشكل كبير مقارنةً بوحدات المعالجة المركزية.
  • الذاكرة: غالبًا ما تتضمّن وحدات TPU كميات كبيرة من الذاكرة ذات النطاق الترددي العالي، ما يتيح التعامل مع النماذج الكبيرة وأحجام الدفعات الكبيرة أثناء التدريب. ويمكن أن يؤدي ذلك إلى تحسين جودة النموذج.
  • قابلية التوسّع: توفّر حِزم TPU (مجموعات كبيرة من وحدات TPU) حلاً قابلاً للتوسّع للتعامل مع التعقيد المتزايد للنماذج الأساسية الكبيرة. يمكنك توزيع التدريب على عدة أجهزة TPU لمعالجة البيانات بشكل أسرع وأكثر كفاءة.
  • فعالية التكلفة: في العديد من السيناريوهات، يمكن أن توفّر وحدات معالجة الموتّرات حلاً أكثر فعالية من حيث التكلفة لتدريب النماذج الكبيرة مقارنةً بالبنية الأساسية المستندة إلى وحدة المعالجة المركزية، خاصةً عند أخذ الوقت والموارد التي يتم توفيرها في الاعتبار بسبب سرعة التدريب.
  • وتتوافق هذه المزايا مع التزامات Google بالعمل بشكل مستدام.

البرامج

تم التدريب باستخدام JAX وML Pathways. تتيح JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة المؤثّرات، لتدريب النماذج الكبيرة بشكل أسرع وأكثر كفاءة. ‫ML Pathways هي أحدث مبادرة من Google تهدف إلى إنشاء أنظمة ذكاء اصطناعي قادرة على التعميم على مستوى مهام متعددة. وهي مناسبة بشكل خاص للنماذج الأساسية، بما في ذلك النماذج اللغوية الكبيرة مثل هذه.
يتم استخدام JAX وML Pathways معًا كما هو موضح في المستند حول مجموعة نماذج Gemini: "يتيح نموذج البرمجة "وحدة التحكّم الفردية" في Jax وPathways إمكانية تنسيق عملية التدريب بأكملها من خلال عملية Python واحدة، ما يؤدي إلى تبسيط سير عمل التطوير بشكل كبير".

تقييم

مقاييس تقييم النموذج ونتائجه

نتائج قياس الأداء

Benchmark n-shot Function Gemma 270m
BFCL Simple 0-shot 61.6
BFCL Multiple 0-shot 63.5
BFCL Parallel 0-shot 39
BFCL Parallel Multiple 0-shot 29.5
BFCL Live Simple 0-shot 36.2
BFCL Live Multiple 0-shot 25.7
BFCL Live Parallel 0-shot 22.9
BFCL Live Parallel Multiple 0-shot 20.8
مدى صلة BFCL 0-shot 61.1
عدم ملاءمة BFCL 0-shot 73.7

التأثير في الأداء بعد الضبط الدقيق على مجموعة بيانات "الإجراءات على الأجهزة الجوّالة"
لتوضيح قيمة التخصّص في النماذج اللغوية الصغيرة، قارنّا نموذج FunctionGemma الأساسي بالنموذج المضبوط بدقة باستخدام وصفة "الإجراءات على الأجهزة الجوّالة". وقد أدّى الضبط الدقيق إلى تحسين قدرة نموذج FunctionGemma الأساسي بشكل كبير على تحديد طلبات نظام الأجهزة الجوّالة وتنسيقها بشكل صحيح.


الطراز

نتائج التقييم الخاصة بـ "الإجراءات على الأجهزة الجوّالة"

نموذج Base FunctionGemma

‫58%

تحسين "الإجراءات على الأجهزة الجوّالة"

85%

أداء نماذج Gemma 270m المعدَّلة على الجهاز
قيّمنا حالات الاستخدام المعدَّلة على هاتف Samsung S25 Ultra لتقييم وقت الاستجابة وحجم الذاكرة على الجهاز.

  • السياق: 512 رمزًا مميزًا للتعبئة المسبقة و32 رمزًا مميزًا للفك.
  • الأجهزة: وحدة المعالجة المركزية في هاتف S25 Ultra باستخدام LiteRT XNNPACK delegate مع 4 سلاسل محادثات

أداء "الإجراءات على الأجهزة الجوّالة"


الخادم الخلفي

مخطط التكميم

طول السياق

التعبئة المسبقة (الرموز المميزة في الثانية)

فك الترميز (الرموز المميزة في الثانية)

الوقت المستغرَق حتى ظهور أول رمز مميز (بالثواني)

حجم النموذج (ميغابايت)

الحد الأقصى لذاكرة RSS (ميغابايت)

وحدة المعالجة المركزية

dynamic_int8

1024

1718

125.9

0.3

288

551

Tiny Garden On Device Performance


الخادم الخلفي

مخطط التكميم

طول السياق

التعبئة المسبقة (الرموز المميزة في الثانية)

فك الترميز (الرموز المميزة في الثانية)

الوقت المستغرَق حتى ظهور أول رمز مميز (بالثواني)

حجم النموذج (ميغابايت)

الحد الأقصى لذاكرة RSS (ميغابايت)

وحدة المعالجة المركزية

dynamic_int8

1024

1743

125.7

0.3

288

549

الأخلاقيات والأمان

منهجية تقييم الأخلاقيات والأمان والنتائج

أسلوب التقييم

تشمل طرق التقييم التي نستخدمها التقييمات المنظَّمة واختبارات الفريق الأحمر الداخلية لسياسات المحتوى ذات الصلة. وقد نفّذت عمليات تقييم الأداء السلبي عدة فرق مختلفة، وكان لكل فريق أهداف مختلفة ومقاييس تقييم بشرية مختلفة. تم تقييم هذه النماذج وفقًا لعدد من الفئات المختلفة ذات الصلة بالأخلاقيات والأمان، بما في ذلك:

  • سلامة الأطفال: تقييم الطلبات من نص إلى نص ومن صورة إلى نص التي تغطي سياسات سلامة الأطفال، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم
  • أمان المحتوى: تقييم الطلبات من نص إلى نص ومن صورة إلى نص التي تغطي سياسات الأمان، بما في ذلك التحرش والعنف والمشاهد الدموية وخطاب الكراهية
  • الأضرار التمثيلية: تقييم الطلبات من نص إلى نص ومن صورة إلى نص التي تغطي سياسات السلامة، بما في ذلك التحيز والتنميط النمطي والارتباطات الضارة أو عدم الدقة

نتائج التقييم

في جميع مجالات اختبار الأمان، لاحظنا تحسّنًا كبيرًا في فئات أمان الأطفال وأمان المحتوى والأضرار التمثيلية مقارنةً بنماذج Gemma السابقة. تم إجراء جميع الاختبارات بدون فلاتر أمان لتقييم قدرات النموذج وسلوكياته. وقد حقّق النموذج الحد الأدنى من انتهاكات السياسة، وأظهر تحسّنًا ملحوظًا في الأداء مقارنةً بنماذج Gemma السابقة في ما يتعلّق بالاستنتاجات غير المستندة إلى بيانات. كانت إحدى القيود المفروضة على تقييماتنا هي أنّها كانت تتضمّن طلبات باللغة الإنجليزية فقط.

الاستخدام والقيود

وتتضمّن هذه النماذج بعض القيود التي يجب أن يكون المستخدمون على دراية بها.

الاستخدام المقصود

هذا النموذج ليس مخصّصًا للاستخدام كنموذج حوار مباشر.
تتوفّر مجموعة واسعة من التطبيقات للنماذج اللغوية الكبيرة (LLM) المفتوحة المصدر في مختلف المجالات. إنّ قائمة الاستخدامات المحتملة التالية ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتملة التي أخذها منشئو النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها.

  • صناعة المحتوى والتواصل
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء صيغ نصوص إبداعية، مثل القصائد والنصوص والرموز ونسخ التسويق ومسودات الرسائل الإلكترونية.
    • روبوتات الدردشة والذكاء الاصطناعي الحواري: تتيح هذه الأدوات إنشاء واجهات حوارية لخدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية.
    • تلخيص النصوص: إنشاء ملخّصات موجزة لمجموعة من النصوص أو الأوراق البحثية أو التقارير
  • البحث والتعليم
    • أبحاث معالجة اللغات الطبيعية (NLP): يمكن أن تشكّل هذه النماذج أساسًا للباحثين لتجربة تقنيات معالجة اللغات الطبيعية وتطوير الخوارزميات والمساهمة في تقدّم هذا المجال.
    • أدوات تعلُّم اللغات: تتيح تجارب تفاعلية لتعلُّم اللغات، وتساعد في تصحيح الأخطاء النحوية أو توفير تدريبات على الكتابة.
    • استكشاف المعرفة: مساعدة الباحثين في استكشاف كميات كبيرة من النصوص من خلال إنشاء ملخّصات أو الإجابة عن أسئلة حول مواضيع معيّنة

القيود

  • بيانات التدريب
    • تؤثر جودة بيانات التدريب وتنوّعها بشكل كبير في إمكانات النموذج. قد تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى قيود في ردود النموذج.
    • يحدّد نطاق مجموعة بيانات التدريب مجالات المواضيع التي يمكن للنموذج التعامل معها بفعالية.
  • السياق ومدى تعقيد المهمة
    • تكون النماذج أفضل في تنفيذ المهام التي يمكن صياغتها باستخدام طلبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المعقّدة جدًا صعبة.
    • يمكن أن يتأثر أداء النموذج بكمية السياق المقدَّم (يؤدي السياق الأطول عمومًا إلى نتائج أفضل، وذلك حتى حدّ معيّن).
  • غموض اللغة ودقتها
    • اللغة الطبيعية معقّدة بطبيعتها. وقد تواجه النماذج صعوبة في فهم الفروق الدقيقة أو السخرية أو اللغة المجازية.
  • المعلومات الصحيحة
    • تنشئ النماذج الردود استنادًا إلى المعلومات التي تعلّمتها من مجموعات بيانات التدريب، ولكنّها ليست قواعد بيانات. وقد تقدّم بيانات واقعية غير صحيحة أو قديمة.
  • Common Sense
    • تعتمد النماذج على الأنماط الإحصائية في اللغة. وقد لا تكون قادرة على تطبيق التفكير المنطقي في بعض المواقف.

الاعتبارات الأخلاقية والمخاطر

يثير تطوير النماذج اللغوية الكبيرة (LLM) العديد من المخاوف الأخلاقية. عند إنشاء نموذج مفتوح، أخذنا في الاعتبار بعناية ما يلي:

  • الانحياز والعدالة
    • يمكن أن تعكس النماذج اللغوية الكبيرة التي تم تدريبها على بيانات نصية واسعة النطاق من العالم الحقيقي الانحيازات الاجتماعية والثقافية المضمّنة في مواد التدريب. خضعت هذه النماذج لتدقيق دقيق، وتمت معالجة البيانات مسبقًا على النحو الموضّح، وتم تسجيل التقييمات اللاحقة في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة:
    • تلخّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وقدراتها وقيودها وعمليات التقييم.
    • يتيح النموذج المفتوح المصدر الذي تم تطويره بشكل مسؤول فرصة مشاركة الابتكار من خلال إتاحة تكنولوجيا النماذج اللغوية الكبيرة للمطوّرين والباحثين في جميع أنحاء منظومة الذكاء الاصطناعي المتكاملة.

المخاطر التي تم تحديدها وإجراءات التخفيف منها:

  • استمرار التحيزات: يُنصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النماذج وضبطها بدقة وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: من الضروري توفير آليات وإرشادات لضمان سلامة المحتوى. ننصح المطوّرين بتوخّي الحذر وتنفيذ تدابير وقائية مناسبة لحماية المحتوى استنادًا إلى سياسات منتجاتهم وحالات استخدام تطبيقاتهم المحدّدة.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتثقيف المطوّرين والمستخدمين النهائيين في الحد من التطبيقات الضارة لنماذج اللغات الكبيرة. يتم توفير مراجع تعليمية وآليات إبلاغ للمستخدمين للإشارة إلى حالات إساءة الاستخدام. يتم توضيح الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لنماذج Gemma.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات تحديد الهوية الشخصية (PII). ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات الحفاظ على الخصوصية.

المزايا

عند الإصدار، توفّر هذه المجموعة من النماذج عمليات تنفيذ مفتوحة المصدر للنماذج اللغوية الكبيرة العالية الأداء والمصمَّمة من البداية لتطوير الذكاء الاصطناعي المسؤول مقارنةً بالنماذج ذات الأحجام المماثلة.