توضّح هذه الصفحة تنسيق الطلبات وإرشادات النظام لطُرز PaliGemma. تستخدِم صيغ نماذج Gemma هذه التنسيق العام نفسه المستخدَم في نماذج Gemma الأساسية، كما تتيح أيضًا بنية خاصة لأعمال معيّنة مرتبطة بالصور.
تنسيق الطلب
تستخدِم نماذج PaliGemma تنسيق الطلب نفسه المستخدَم في نماذج Gemma الأساسية التي تستند إليها. ومع ذلك، تتيح نماذج PaliGemma أيضًا استخدام بنية مهمة خاصة، كما هو موضّح في القسم التالي. للحصول على مزيد من المعلومات عن تنسيق طلبات Gemma، يُرجى الاطّلاع على طلبات Gemma وتعليمات النظام.
ترتيب بيانات الصور والنصوص
عند تقديم نماذج PaliGemma ببيانات نصية وصور، يجب تقديم بيانات الصور أولاً، ثم بيانات النصوص بعد ذلك. إنّ عكس ترتيب بيانات الصور والطلبات النصية أو خلط بيانات الصور والطلبات النصية يؤدي عادةً إلى إنشاء إجابات غير قابلة للاستخدام.
بنية الطلب الخاص بالمهمة
يتم تدريب نماذج PaliGemma باستخدام أنماط طلبات وبنية نحوية محدّدة للقيام بأعمال مثل التعرّف على الأجسام وإضافة ترجمة للصور. يمكنك استخدام بنية مهمة الطلب هذه لطلب سلوك معيّن من نماذج PaliGemma، على النحو التالي:
-
"cap {lang}\n"
: ترجمة قصيرة أولية جدًا (من WebLI-alt) "caption {lang}\n"
: مقاطع ترجمة وشرح قصيرة رائعة مثل COCO"describe {lang}\n"
: ترجمة وشرح أطول وأكثر وصفًا"ocr"
: التعرّف البصري على الأحرف"answer {lang} {question}\n"
: الإجابة عن الأسئلة حول محتوى الصورة"question {lang} {answer}\n"
: إنشاء سؤال للإجابة المحدّدة-
"detect {object} ; {object}\n"
: تحديد موقع الأجسام المدرَجة في صورة و عرض المربّعات الحدودية لهذه الأجسام "segment {object}\n"
: تحديد مكان الكائن في الصورة لإنشاء تقسيم للصورة لهذا الكائن
خيارات {lang}
مخصّصة لرموز اللغات. تتيح PaliGemma ميزة التعرّف على
اللغة في 34 لغة مختلفة لطلبات المهام التي تتضمّن هذا الخيار. يمكنك
الاطّلاع على قائمة اللغات المتاحة على
GitHub.
للحصول على أمثلة تفصيلية على الرموز البرمجية توضّح كيفية استخدام هذه البنية، اطّلِع على الدليل التعليمي إنشاء مخرجات PaliGemma باستخدام Keras.
أوامر الطلبات المجمّعة
يمكنك تقديم أكثر من طلب توجيه واحد في طلب توجيه واحد كمجموعة
من التعليمات. يجب أن ينتهي كلّ أمر طلب بحرف \n
. يوضّح المثال التالي كيفية تنظيم نص الطلب لتقديم تعليمات متعددة.
prompts = [
'answer en where is the cow standing?\n',
'answer en what color is the cow?\n',
'describe en\n',
'detect cow\n',
'segment cow\n',
]
images = [cow_image, cow_image, cow_image, cow_image, cow_image]
outputs = paligemma.generate(
inputs={
"images": images,
"prompts": prompts,
}
)
for output in outputs:
print(output)
تعليمات النظام
لا تتيح نماذج PaliGemma أي تعليمات نظام إضافية غير تعليمات نظام Gemma من النماذج الأساسية التي تستند إليها.