تحليل سلوك النموذج باستخدام أدوات إمكانية التفسير

على الرغم من أنّ النهج المسؤول للتعامل مع الذكاء الاصطناعي يجب أن يشمل سياسات السلامة وأساليب تحسين أمان النموذج وكيفية صياغة أدوات الشفافية، يجب ألا يكون أسلوبك في تحمّل المسؤولية في ما يتعلّق بالذكاء الاصطناعي التوليدي هو اتّباع قائمة تحقّق فحسب. إنّ منتجات الذكاء الاصطناعي التوليدي جديدة نسبيًا وقد تختلف سلوكيات التطبيقات مقارنةً بالأشكال السابقة من البرامج. لهذا السبب، ينبغي عليك التحقق من نماذج التعلم الآلي المستخدمة، وفحص أمثلة لسلوك النموذج، والتحقيق في المفاجآت.

في الوقت الحالي، لا شكّ في أنّ تقديم الطلبات هو فن معيّن، ولكن هناك أدوات يمكن أن تساعدك بشكل تجريبي في تحسين طلبات النماذج اللغوية الكبيرة، مثل أداة "سهولة القراءة التفسيرية" (LIT). LIT هي منصة مفتوحة المصدر تم تطويرها لتصوير نماذج الذكاء الاصطناعي/تعلُّم الآلة وفهمها وتصحيحها. في ما يلي مثال على كيفية استخدام LIT لاستكشاف سلوك "جيما" وتوقع المشكلات المحتملة وتحسين أمانها.

يمكنك تثبيت LIT على جهازك المحلي أو في Colab أو على Google Cloud. لبدء استخدام LIT، استورِد النموذج ومجموعة بيانات مرتبطة به (مثل مجموعة بيانات تقييم الأمان) في Colab. ستنشِئ LIT مجموعة من مخرجات مجموعة البيانات باستخدام نموذجك وتزوّدك بواجهة مستخدم لاستكشاف سلوك النموذج.

تحليل نماذج Gemma باستخدام LIT

بدء درس تطبيقي حول الترميز بدء استخدام Google Colab

صورة متحركة لواجهة مستخدِم "أداة قابلية التفسير للتعلُّم" (LIT)

تعرض هذه الصورة واجهة مستخدم LIT. يتيح محرر نقطة البيانات في الجزء العلوي للمستخدمين تعديل مطالباتهم. في أسفل الصفحة، تتيح لهم وحدة LM Salience التحقّق من نتائج مدى الحداثة.

تحديد الأخطاء في الطلبات المعقّدة

اثنان من أهمّ الأساليب التي تحفّز النماذج الأوّلية والمستنِدة على نموذج لغوي كبير (LLM) وهما تقديم عدد قليل من الطلبات (بما في ذلك أمثلة على السلوك المطلوب في الطلب) وسلسلة الأفكارالتفسير النهائي قبل تقديم ومع ذلك، غالبًا ما يكون إنشاء مطالبة فعالة أمرًا صعبًا.

ضع في اعتبارك مثالاً لمساعدة شخص ما في تقييم ما إذا كان سيحب الطعام بناءً على أذواقه. قد يبدو نموذج المطالبة الأوّلي لسلسلة التفكير الأولية كما يلي:

Analyze a menu item in a restaurant.


## For example:


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: You have to try it.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Baguette maison au levain
Analysis: Home-made leaven bread in France is usually great
Recommendation: Likely good.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Macaron in France
Analysis: Sweet with many kinds of flavours
Recommendation: You have to try it.


## Now analyse one more example:


Taste-likes: {{users-food-like-preferences}}
Taste-dislikes: {{users-food-dislike-preferences}}
Suggestion: {{menu-item-to-analyse}}
Analysis:

هل رصدت أي مشاكل في هذا الطلب؟ سيساعدك LIT في فحص الطلب باستخدام وحدة LM Salience.

استخدام بروز التسلسل لتصحيح الأخطاء

يتم احتساب مدى التميّز على أصغر مستوى ممكن (أي لكل رمز مميّز للإدخال)، ولكن يمكن لمنصة LIT تجميع بروز الرمز المميّز في امتدادات أكبر يمكن تفسيرها، مثل السطور أو الجمل أو الكلمات. يمكنك التعرّف على المزيد من المعلومات حول البراعة وكيفية استخدامها لتحديد الانحيازات غير المقصودة في مقالة البحث في مدى الملاءمة التفاعلية.

لنبدأ بإعطاء المطالبة مثال جديد لمتغيرات نموذج المطالبة:

{{users-food-like-preferences}} = Cheese
{{users-food-dislike-preferences}} = Can't eat eggs
{{menu-item-to-analyse}} = Quiche Lorraine

وبمجرد الانتهاء من ذلك، يمكن ملاحظة إكمال النموذج المفاجئ:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: A savoury tart with cheese and eggs
Recommendation: You might not like it, but it's worth trying.

لماذا يقترح النموذج عليك تناول شيء قلت بوضوح أنه لا يمكنك تناوله؟

يمكن أن يساعد بروز التسلسل في إبراز المشكلة الجذرية، وهي في أمثلةنا القليلة. في المثال الأول، لا يتطابق منطق سلسلة التفكير في قسم التحليل مع التوصية النهائية. اقتران تحليل بعنوان "يتضمن طحين بصل مطبوخ إنه لا يعجبك" واقتراح "ننصحك بتجربته".

واجهة مستخدم LIT تعرض تحليل مدى ملاءمة تسلسل الطلبات

ويشير هذا إلى خطأ في الطلب الأولي: كانت هناك نسخة غير مقصودة من الاقتراح (You have to try it!) للمثال القليل الأول. يمكنك أن ترى قوة الوضوح في المطالبة من ظلام التمييز باللون الأرجواني. يظهر أعلى مثال للقطات قليلة، وتحديدًا الأسطر المقابلة لـ Taste-likes وAnalysis وRecommendation. وهذا يشير إلى أن النموذج يستخدم هذه السطور كثيرًا لتقديم توصيته النهائية غير الصحيحة.

يسلط هذا المثال الضوء أيضًا على أن النماذج الأوّلية المبكرة يمكن أن تكشف عن مخاطر قد لا تفكر فيها مسبقًا، وطبيعة النماذج اللغوية المعرضة للخطأ تعني أنه عليك التصميم بشكل استباقي بحثًا عن الأخطاء. تمت مناقشة ذلك بشكل أكبر في دليل الأشخاص + الذكاء الاصطناعي للتصميم باستخدام الذكاء الاصطناعي.

اختبار الفرضيات لتحسين سلوك النموذج

تتيح لك أداة LIT اختبار التغييرات على الطلبات ضمن الواجهة نفسها. في هذه الحالة، حاوِل إضافة عنصر لتحسين سلوك النموذج. تشير الدساتير إلى مطالبات التصميم بمبادئ للمساعدة في توجيه إنشاء النموذج. حتى أن الأساليب الحديثة تتيح الاشتقاق التفاعلي من المبادئ الدستورية.

دعنا نستخدم هذه الفكرة للمساعدة في تحسين المطالبة بشكل أكبر. استخدِم محرِّر نقطة البيانات من LIT لإضافة قسم يتضمّن مبادئ إنشاء المحتوى في أعلى الطلب، والذي يبدأ الآن على النحو التالي:

Analyze a menu item in a restaurant.

* The analysis should be brief and to the point.
* It should provide a clear statement of suitability for someone with
  specific dietary restrictions.
* It should reflect the person's tastes

## For example:

Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: Avoid.

من خلال هذا التعديل، يمكن إعادة تشغيل المثال وملاحظة ناتج مختلف جدًا:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: This dish contains eggs, which you can't eat.
Recommendation: Not suitable for you.

يمكن بعد ذلك إعادة فحص مدى بروز المطالبة للمساعدة في فهم سبب حدوث هذا التغيير:

واجهة مستخدم LIT تعرض تحليلاً لمدى بروز الطلبات

في هذا المثال، يتأثر التصنيف "غير مناسب لك" بمبدأ "تقديم بيان واضح بمدى ملاءمة الفيديو لشخص لديه قيود نظامية غذائية محددة" وبيان التحليل التوضيحي الذي يشير إلى أنّ الطبق يحتوي على البيض (ما يُعرف باسم سلسلة الأفكار).

إشراك الفِرق غير الفنية في اختبارات النماذج واستكشافها

من المفترض أن تكون الترجمة التفسيرية جهدًا جماعيًا، وتغطي الخبرة عبر السياسات والقانونات وغيرها. كما رأيت، يمكن أن يساعد الوسيط المرئي والقدرة التفاعلية على فحص البروز واستكشاف الأمثلة في مختلف الأطراف المعنية في مشاركة النتائج وإبلاغها. وهذا يمكن أن يمكّنك من الحصول على مجموعة متنوعة من زملائك في الفريق لاستكشاف النماذج والتحقق منها وتصحيح الأخطاء. يمكن أن يؤدي تعريفهم بهذه الأساليب التقنية إلى تعزيز فهمهم لكيفية عمل النماذج. بالإضافة إلى ذلك، يمكن أيضًا الاستعانة بمجموعة أكثر تنوعًا من الخبرة في الاختبار المبكر للنموذج في الكشف عن نتائج غير مرغوب فيها يمكن تحسينها.

ملخّص

عندما تجد أمثلة سيئة في تقييمات النموذج، أدرجها في LIT لتصحيح الأخطاء. ابدأ بتحليل أكبر وحدة منطقية من المحتوى يمكنك التفكير فيها ترتبط منطقيًا بمهمة النمذجة، واستخدم التصورات لمعرفة أين يحضر النموذج بشكل صحيح أو غير صحيح إلى محتوى المطالبة، ثم توغّل في وحدات أصغر من المحتوى لتقديم وصف أكثر تفصيلاً للسلوك غير الصحيح الذي تراه من أجل تحديد الإصلاحات الممكنة.

موارد المطوِّرين