طلب PaliGemma وتعليمات النظام

توضّح هذه الصفحة تنسيق الطلبات وإرشادات النظام لطُرز PaliGemma. تستخدِم صيغ نماذج Gemma هذه التنسيق العام نفسه المستخدَم في نماذج Gemma الأساسية، وهي تتيح بنية خاصة لمهام محددة تتعلّق بالصور.

تنسيق الطلب

تستخدم نماذج PaliGemma تنسيق الطلب نفسه المستخدَم في نماذج Gemma الأساسية التي تستند إليها. ومع ذلك، تتيح نماذج PaliGemma أيضًا استخدام بنية مهمة خاصة، كما هو موضّح في القسم التالي. للحصول على مزيد من المعلومات عن تنسيق طلبات Gemma، يُرجى الاطّلاع على طلبات Gemma وتعليمات النظام.

ترتيب بيانات الصور والنصوص

عند توجيه نماذج PaliGemma باستخدام بيانات النص والصورة، يجب تقديم بيانات الصورة أولاً، ثم بيانات طلب النص بعد ذلك. إنّ عكس ترتيب بيانات الصور والطلبات النصية أو خلط بيانات الصور والطلبات النصية يؤدي عادةً إلى إنشاء إجابات غير قابلة للاستخدام.

بنية الطلب الخاص بالمهمة

يتم تدريب نماذج PaliGemma باستخدام أنماط طلبات وقواعد نحوية محدّدة للقيام بأعمال مثل التعرّف على الأجسام وإضافة ترجمة للصور. يمكنك استخدام بنية مهمة الطلب هذه لطلب سلوك معيّن من نماذج PaliGemma على النحو التالي:

  • "cap {lang}\n": ترجمة قصيرة أولية جدًا (تتوفّر في تنسيق PT فقط)
  • "caption {lang}\n": مقاطع ترجمة وشرح قصيرة
  • "describe {lang}\n": مقاطع ترجمة وشرح أطول وأكثر وصفية (تتوفّر في "الترجمة والشرح" فقط)
  • "ocr": التعرّف البصري على الأحرف (متاح فقط في ميزة "الترجمة والشرح")
  • "answer {lang} {question}\n": الإجابة عن الأسئلة حول محتوى الصورة
  • "question {lang} {answer}\n": إنشاء سؤال للإجابة المحدّدة (متاح فقط في "الاختبارات القصيرة")
  • "detect {object} ; {object}\n": تحديد موقع الأجسام المدرَجة في صورة وعرض المربّعات الحدودية لهذه الأجسام
  • "segment {object} ; {object}\n": تحديد موقع المنطقة التي تشغلها العناصر المُدرَجة في صورة لإنشاء تقسيم صورة لذلك الكائن

خيارات {lang} مخصّصة لرموز اللغات. تتيح PaliGemma ميزة التعرّف على اللغة في 34 لغة مختلفة لطلبات المهام التي تتضمّن هذا الخيار. يمكنك الاطّلاع على قائمة اللغات المتاحة على GitHub.

للحصول على أمثلة تفصيلية على الرموز البرمجية توضّح كيفية استخدام هذه البنية، اطّلِع على الدليل التعليمي إنشاء مخرجات PaliGemma باستخدام Keras.

توجيهات باستخدام لغة طبيعية

على الرغم من أنّه يُنصح باستخدام البنية في القسم السابق، فإنّ النماذج المختلطة تتيح أيضًا استخدام اللغة الطبيعية في العديد من المهام. على سبيل المثال، سيظلّ طلب "صف هذه الصورة بإيجاز" أو "ما هذا النص؟" صالحًا حتى إذا لم يتم توجيهك باستخدام بناء الجملة الدقيق.

أوامر الطلبات المجمّعة

يمكنك تقديم أكثر من طلب توجيه واحد في طلب توجيه واحد كمجموعة من التعليمات. يجب أن ينتهي كلّ أمر طلب بحرف \n. يوضّح المثال التالي كيفية تنظيم نص الطلب لتقديم تعليمات متعددة.

prompts = [
    'answer en where is the cow standing?\n',
    'answer en what color is the cow?\n',
    'describe en\n',
    'detect cow\n',
    'segment cow\n',
]
images = [cow_image, cow_image, cow_image, cow_image, cow_image]
outputs = paligemma.generate(
    inputs={
        "images": images,
        "prompts": prompts,
    }
)
for output in outputs:
    print(output)

تعليمات النظام

لا تتوافق نماذج PaliGemma مع أي تعليمات نظام إضافية غير تعليمات نظام Gemma من النماذج الأساسية التي تستند إليها.