الضبط الدقيق باستخدام Gemini API

قد لا تؤدي إستراتيجيات التصميم الفورية مثل المطالبة بلقطات قليلة دائمًا إلى إنتاج النتائج التي تحتاجها. الضبط الدقيق هو عملية يمكن أن تحسّن أداء نموذجك الأداء في مهام محددة أو مساعدة النموذج على الالتزام بمخرجات محددة المتطلبات عندما لا تكون التعليمات كافية ولديك مجموعة من الأمثلة توضح المخرجات التي تريدها.

تقدم هذه الصفحة نظرة عامة مفاهيمية حول ضبط النموذج النصي وراء خدمة Gemini API النصية عندما تكون مستعدًا لبدء التوليف، اطلع على برنامج تعليمي حول التوليف الدقيق.

آلية عمل الضبط الدقيق

والهدف من الضبط الدقيق هو تحسين أداء النموذج بشكل أكبر مهمتك المحددة. يعمل الضبط الدقيق عن طريق تزويد النموذج بتدريب مجموعة البيانات التي تحتوي على العديد من الأمثلة الخاصة بالمهمة. بالنسبة للمهام المتخصصة، يمكنك الحصول على حدوث تحسينات ملحوظة في أداء النموذج من خلال ضبط النموذج على عدد من الأمثلة. يُشار أحيانًا إلى هذا النوع من توليف النموذج باسم الضبط الدقيق الخاضع للإشراف، لتمييزه عن الأنواع الأخرى من الضبط الدقيق.

يجب هيكلة بيانات التدريب الخاصة بك كأمثلة مع إدخالات المطالبة مخرجات الاستجابة المتوقعة. يمكنك أيضًا ضبط النماذج باستخدام نموذج البيانات مباشرةً في Google AI Studio الهدف هو تعليم النموذج لمحاكاة السلوك المطلوب أو مهمة ما، من خلال إعطائها العديد من الأمثلة التي توضح تلك السلوك أو المهمة.

عند تنفيذ مهمة توليف، يتعلم النموذج معلمات إضافية تساعده ترميز المعلومات الضرورية لأداء المهمة المطلوبة أو معرفة ما تريد السلوك. ويمكن بعد ذلك استخدام هذه المعاملات في وقت الاستنتاج. ناتج عملية ضبط جديدة، وهو مزيج فعّال من الفوائد البرمجية المعاملات التي تم تعلمها والنموذج الأصلي.

إعداد مجموعة البيانات

وقبل أن تتمكن من بدء الضبط، ستحتاج إلى مجموعة بيانات لضبط النموذج بها. بالنسبة أفضل أداء، فيجب أن تكون الأمثلة في مجموعة البيانات ذات جودة عالية، متنوعة وممثلة للمدخلات والمخرجات الحقيقية.

التنسيق

يجب أن تتطابق الأمثلة المضمنة في مجموعة البيانات الخاصة بك مع الإنتاج المتوقع حركة المرور. فإذا كانت مجموعة البيانات لديك تتضمن تنسيقًا أو كلمات رئيسية أو تعليمات يجب تنسيق بيانات الإنتاج بنفس الطريقة تحتوي على التعليمات نفسها.

على سبيل المثال، إذا كانت الأمثلة في مجموعة البيانات تتضمن "question:" "context:"، يجب أيضًا تنسيق حركة بيانات الإنتاج لتشمل "question:" و"context:" بالترتيب نفسه الذي يظهر في مجموعة البيانات الأمثلة. وإذا استبعدت السياق، لن يتمكّن النموذج من التعرّف على النمط، حتى لو كان السؤال بالضبط في مثال في مجموعة البيانات.

يمكن أن تساعد إضافة مطالبة أو مقدمة إلى كل مثال في مجموعة البيانات لديك أيضًا تحسين أداء النموذج الذي تم ضبطه. ملاحظة، إذا كانت المطالبة أو المقدمة تضمينها في مجموعة البيانات الخاصة بك، فيجب تضمينها أيضًا في المطالبة إلى نموذج في وقت الاستنتاج.

حجم بيانات التدريب

يمكنك تحسين النموذج باستخدام 20 مثالاً فقط. البيانات الإضافية إلى تحسين جودة الردود بشكل عام. يجب أن تستهدف ما بين 100 و500 مثال، اعتمادًا على تطبيقك. يُظهر الجدول التالي أحجام مجموعات البيانات الموصى بها لضبط نموذج نصي لمختلف المهام الشائعة:

المهمة عدد الأمثلة في مجموعة البيانات
التصنيف 100+
تلخيص 100-500+
البحث في المستندات 100+

تحميل مجموعة بيانات التوليف

يتم تمرير البيانات مضمّنة باستخدام واجهة برمجة التطبيقات أو من خلال ملفات تم تحميلها في Google. AI Studio

لاستخدام مكتبة البرامج، قدِّم ملف البيانات في استدعاء createTunedModel. الحد الأقصى لحجم الملف هو 4 ميغابايت. يمكنك الاطّلاع على البدء السريع لاستخدام Python لبدء استخدامها

لاستدعاء واجهة برمجة تطبيقات REST باستخدام cURL، قدِّم أمثلة تدريب بتنسيق JSON إلى الوسيطة training_data. يمكنك الاطّلاع على توليف ميزة "البدء السريع" باستخدام أداة cURL لبدء استخدامها

إعدادات التوليف المتقدمة

عند إنشاء مهمة توليف، يمكنك تحديد الإعدادات المتقدمة التالية:

  • الحقبات: هي عبارة عن تدريب كامل على مجموعة التدريب بأكملها بحيث مثالنا مرة واحدة.
  • حجم المجموعة: مجموعة الأمثلة المستخدمة في تكرار تدريب واحد. تشير رسالة الأشكال البيانية حجم الدفعة إلى تحديد عدد الأمثلة في الدُفعة.
  • معدّل التعلّم: هو رقم من نقطة عائمة يوضّح للخوارزمية مستوى بشدة لضبط معلَمات النموذج في كل تكرار. على سبيل المثال، قد يؤدي معدل التعلم 0.3 إلى تعديل الأوزان والتحيزات أكثر بثلاث مرات أقوى بكثير من معدل التعلم 0.1. تتمتع معدلات التعلم العالية والمنخفضة المقايضات الفريدة الخاصة بها ويجب تعديلها بناءً على حالة استخدامك.
  • مُضاعِف معدّل التعلّم: يعدِّل مُضاعِف المعدّل قيمة معدل التعلم الأصلي. تستخدم القيمة 1 معدل التعلم الأصلي الأمثل. تؤدي القيم الأكبر من 1 إلى زيادة معدل التعلُّم والقيم بين 1 و 0 يخفض معدل التعلم.

يعرض الجدول التالي التهيئات الموصى بها لضبط نموذج الأساس:

معلَمة فائقة القيمة التلقائية التعديلات المقترَحة
Epoch 5

في حال بدء الخسارة في الهبوط قبل 5 فترات، استخدم قيمة أصغر.

إذا كان الخسارة متقاربة ولا يبدو أنها تستقر، استخدِم قيمة أعلى.

حجم الدفعة 4
معدّل التعلّم 0.001 استخدم قيمة أصغر لمجموعات البيانات الأصغر.

ويوضح منحنى الخسارة مدى انحراف توقع النموذج عن النموذج والتنبؤات في أمثلة التدريب بعد كل حقبة. من الناحية المثالية، تريد إيقاف التدريب عند أدنى نقطة في المنحنى قبل الهبوط مباشرة. على سبيل المثال: يوضح الرسم البياني أدناه استقرار منحنى الخسارة في الحقبة 4-6 تقريبًا، مما يعني يمكنك ضبط المعلَمة Epoch على 4 مع الحفاظ على الأداء نفسه.

رسم بياني خطي يعرض منحنى الخسارة للنموذج. الارتفاع الخطي بين
الحقبتين الأولى والثانية، ثم تنخفض بشكلٍ كبير إلى 0 تقريبًا وخروج من المستويات
بعد ثلاث فترات.

التحقق من حالة مهمة التوليف

يمكنك التحقّق من حالة وظيفة الضبط في Google AI Studio ضمن علامة التبويب مكتبتي أو استخدام السمة metadata للنموذج الذي تم ضبطه في Gemini API

تحديد الأخطاء وتصحيحها

يتضمّن هذا القسم نصائح حول كيفية إصلاح الأخطاء التي قد تواجهها أثناء بإنشاء نموذجك الذي تم ضبطه.

المصادقة

يتطلب الضبط باستخدام واجهة برمجة التطبيقات ومكتبة البرامج مصادقة المستخدم. مفتاح واجهة برمجة التطبيقات بمفرده ليس كافيًا. إذا ظهر لك الخطأ 'PermissionDenied: 403 Request had insufficient authentication scopes'، عليك إعداد حساب المستخدم. المصادقة.

لإعداد بيانات اعتماد OAuth لـ Python، راجع الدليل التعليمي حول إعداد بروتوكول OAuth.

نماذج تم إلغاؤها

يمكنك إلغاء مهمة الضبط الدقيق في أي وقت قبل انتهاء المهمة. ومع ذلك، كان أداء الاستنتاج للنموذج المُلغى غير متوقع، خاصةً إذا يتم إلغاء مهمة الضبط في وقت مبكر من التدريب. في حال إلغاء الاشتراك لأنّك تريد إيقاف التدريب في حقبة سابقة، فيجب عليك إنشاء توليف جديد وتعيين الفترة على قيمة أقل.

الخطوات التالية