الضبط الدقيق باستخدام Gemini API

قد لا تؤدي استراتيجيات التصميم الفوري مثل المطالبة بلقطات قليلة دائمًا إلى النتائج التي تحتاجها. الضبط الدقيق هو عملية يمكن أن تحسِّن أداء نموذجك في مهام محدّدة أو تساعد النموذج على الالتزام بمتطلبات مخرجات محدّدة عندما لا تكون التعليمات كافية وعندما تكون لديك مجموعة من الأمثلة التي توضح النتائج المطلوبة.

تقدّم هذه الصفحة إرشادات حول ضبط النموذج النصي المستخدَم في الخدمة النصية لواجهة Gemini API.

آلية عمل الضبط الدقيق

والهدف من الضبط الدقيق هو تحسين أداء النموذج بشكل أكبر في مهمتك المحددة. يعمل الضبط الدقيق من خلال تزويد النموذج بمجموعة بيانات تدريبية تحتوي على العديد من الأمثلة للمهمة. بالنسبة إلى المهام المتخصّصة، يمكنك الحصول على تحسينات مهمة في أداء النموذج من خلال ضبط النموذج على عدد قليل من الأمثلة.

يجب تنظيم بيانات التدريب كأمثلة مع مدخلات ومخرجات الرد المتوقعة. يمكنك أيضًا ضبط النماذج باستخدام نموذج البيانات مباشرةً في Google AI Studio. الهدف هو تعليم النموذج لمحاكاة السلوك أو المهمة المطلوبة، من خلال إعطائه العديد من الأمثلة التي توضح ذلك السلوك أو المهمة.

عند تشغيل مهمة ضبط، يتعلم النموذج معلمات إضافية تساعده في ترميز المعلومات الضرورية لأداء المهمة المطلوبة أو تعلم السلوك المطلوب. ويمكن بعد ذلك استخدام هذه المعاملات في وقت الاستنتاج. ناتج مهمة الضبط هو نموذج جديد، وهو مزيج فعّال من المعلمات التي تم تعلمها حديثًا والنموذج الأصلي.

إعداد مجموعة البيانات

وقبل أن تتمكن من بدء الضبط، ستحتاج إلى مجموعة بيانات لضبط النموذج بها. للحصول على أفضل أداء، يجب أن تكون الأمثلة في مجموعة البيانات ذات جودة عالية ومتنوعة وممثلة للمدخلات والمخرجات الحقيقية.

التنسيق

يجب أن تتطابق الأمثلة المضمنة في مجموعة البيانات مع زيارات الإنتاج المتوقعة. إذا كانت مجموعة البيانات تحتوي على تنسيق أو كلمات رئيسية أو تعليمات أو معلومات محددة، يجب تنسيق بيانات الإنتاج بالطريقة نفسها وتحتوي على التعليمات نفسها.

على سبيل المثال، إذا كانت الأمثلة في مجموعة البيانات تتضمّن "question:" و"context:"، يجب أيضًا تنسيق زيارات الإنتاج لتشمل "question:" و"context:" بالترتيب نفسه الذي يظهر في أمثلة مجموعة البيانات. إذا استبعدت السياق، فلن يتمكن النموذج من التعرف على النمط، حتى لو كان السؤال الدقيق في مثال ضمن مجموعة البيانات.

يمكن أن تساعد إضافة مطالبة أو مقدمة إلى كل مثال في مجموعة البيانات أيضًا في تحسين أداء النموذج الذي تم ضبطه. ملاحظة: إذا تم تضمين مطالبة أو تمهيد في مجموعة البيانات، فيجب أيضًا تضمينها في الطلب إلى النموذج الذي تم ضبطه في وقت الاستنتاج.

حجم بيانات التدريب

يمكنك تحسين النموذج باستخدام 20 مثالاً فقط. تعمل البيانات الإضافية بشكل عام على تحسين جودة الردود. يجب عليك استهداف ما بين 100 و500 مثال، اعتمادًا على تطبيقك. يوضح الجدول التالي أحجام مجموعات البيانات الموصى بها لضبط نموذج نصي لمهام شائعة مختلفة:

مهمة عدد الأمثلة في مجموعة البيانات
التصنيف 100+
تلخيص 100-500+
البحث في المستندات 100+

تحميل مجموعة بيانات التوليف

يتم تمرير البيانات مضمّنة باستخدام واجهة برمجة التطبيقات أو من خلال ملفات يتم تحميلها في Google AI Studio.

انقر على الزر استيراد واتّبع تعليمات مربّع الحوار لاستيراد البيانات من ملف أو اختَر طلبًا منسَّقًا مع أمثلة للاستيراد كمجموعة بيانات توليف.

مكتبة العميل

لاستخدام مكتبة البرامج، قدِّم ملف البيانات في استدعاء createTunedModel. الحد الأقصى لحجم الملف هو 4 ميغابايت. اطلع على البدء السريع للضبط الدقيق باستخدام Python للبدء.

cURL

لاستدعاء واجهة برمجة تطبيقات REST باستخدام cURL، قدِّم أمثلة تدريب بتنسيق JSON إلى الوسيطة training_data. يُرجى الاطّلاع على مقالة البدء السريع لضبطها باستخدام cURL للبدء.

إعدادات التوليف المتقدمة

عند إنشاء مهمة توليف، يمكنك تحديد الإعدادات المتقدمة التالية:

  • الحقبات: هي عبارة عن تدريب كامل على مجموعة التدريب بأكملها بحيث تتم معالجة كل مثال مرة واحدة.
  • حجم المجموعة: مجموعة الأمثلة المستخدمة في تكرار تدريب واحد. ويحدد حجم الدفعة عدد الأمثلة في الدفعة.
  • معدّل التعلّم: رقم من نقطة عائمة يخبر الخوارزمية بمدى قوة ضبط معلَمات النموذج في كل تكرار. على سبيل المثال، سيؤدي معدل التعلم 0.3 إلى تعديل الأوزان والتحيزات ثلاث مرات أكثر قوة من معدل التعلم 0.1. لمعدلات التعلم المرتفعة والمنخفضة مقايضات فريدة ويجب تعديلها بناءً على حالة الاستخدام.
  • مُضاعِف معدّل التعلّم: يعدِّل مُضاعِف المعدّل معدّل التعلّم الأصلي للنموذج. تستخدم القيمة 1 معدل التعلم الأصلي للنموذج. تؤدي القيم الأكبر من 1 إلى زيادة معدل التعلم والقيم بين 1 و0 أقل من معدل التعلم.

يعرض الجدول التالي عمليات الضبط المقترَحة لضبط نموذج أساسي:

معلَمة فائقة القيمة التلقائية التعديلات المقترَحة
الحقبة 5

في حال بدء الخسارة في الهبوط قبل 5 فترات، استخدم قيمة أصغر.

إذا كان الخسارة متقاربة ولا يبدو أنها تستقر، استخدِم قيمة أعلى.

حجم الدفعة 4
معدّل التعلّم 0.001 استخدم قيمة أصغر لمجموعات البيانات الأصغر.

ويوضح منحنى الخسارة مدى انحراف توقع النموذج عن التوقعات المثالية في الأمثلة التدريبية بعد كل حقبة. من الناحية المثالية، تريد إيقاف التدريب في أدنى نقطة في المنحنى مباشرة قبل أن يستقر. على سبيل المثال، يوضّح الرسم البياني أدناه استقرار منحنى الخسارة عند الفترة من 4 إلى 6 تقريبًا، ما يعني أنّه يمكنك ضبط معلَمة Epoch على 4 مع الحفاظ على الأداء نفسه.

رسم بياني خطي يعرض منحنى الخسارة للنموذج. يرتفع الخط بين
الحققبتين الأولى والثانية، ثم ينخفض بشكل كبير إلى 0 تقريبًا وينخفض مستوياته بعد ثلاث فترات.

التحقق من حالة مهمة التوليف

يمكنك معرفة حالة عملية الضبط في Google AI Studio ضمن علامة التبويب مكتبتي أو باستخدام السمة metadata للنموذج الذي تم ضبطه في Gemini API.

تحديد المشاكل وحلّها

يتضمّن هذا القسم نصائح حول كيفية إصلاح الأخطاء التي قد تواجهها أثناء إنشاء النموذج الذي ضبطته.

المصادقة

يتطلب الضبط باستخدام واجهة برمجة التطبيقات ومكتبة البرامج مصادقة المستخدم. ولا يكفي مفتاح واجهة برمجة التطبيقات بفرده. إذا ظهر لك الخطأ 'PermissionDenied: 403 Request had insufficient authentication scopes'، عليك إعداد مصادقة المستخدم.

لإعداد بيانات اعتماد OAuth الخاصة بـ Python، راجِع البرنامج التعليمي لإعداد OAuth.

نماذج تم إلغاؤها

يمكنك إلغاء مهمة الضبط الدقيق في أي وقت قبل انتهاء المهمة. ومع ذلك، لا يمكن توقع أداء الاستنتاج الخاص بنموذج تم إلغاؤه، لا سيما إذا تم إلغاء مهمة الضبط في وقت مبكر من التدريب. إذا ألغيت التدريب لأنك تريد إيقاف التدريب في مرحلة سابقة، يجب عليك إنشاء مهمة ضبط جديدة وضبط الفترة على قيمة أقل.

الخطوات التالية