این صفحه قالب بندی سریع و دستورالعمل های سیستم را برای مدل های PaliGemma شرح می دهد. این مدلهای مدل Gemma از قالببندی عمومی مشابه مدلهای فونداسیون Gemma استفاده میکنند، و همچنین از یک نحو خاص برای کارهای خاص مرتبط با تصویر پشتیبانی میکنند.
فرمت سریع
مدلهای PaliGemma از همان قالببندی سریع استفاده میکنند که مدلهای پایه Gemma بر اساس آنها ساخته شدهاند. با این حال، مدلهای PaliGemma از یک دستور کار ویژه نیز پشتیبانی میکنند که در بخش بعدی توضیح داده شده است. برای اطلاعات بیشتر در مورد قالببندی درخواست Gemma، به دستور Gemma و دستورالعملهای سیستم مراجعه کنید.
ترتیب داده های تصویر و متن
هنگام درخواست مدلهای PaliGemma با دادههای متنی و تصویری، همیشه باید ابتدا دادههای تصویر و سپس دادههای درخواستی متنی پس از آن ارائه شوند. معکوس کردن ترتیب داده های درخواستی تصویر و متن، یا مخلوط کردن داده های تصویر و متن معمولاً پاسخ های غیرقابل استفاده ایجاد می کند.
دستور دستور کار
مدلهای PaliGemma با الگوهای سریع و نحو خاص برای کارهایی مانند شناسایی شی و نوشتن شرح تصویر آموزش داده شدهاند. میتوانید از این دستور دستوری برای درخواست رفتار خاص از مدلهای PaliGemma استفاده کنید، به شرح زیر:
-
"cap {lang}\n"
: شرح کوتاه بسیار خام (از WebLI-alt) -
"caption {lang}\n"
: زیرنویسهای کوتاه زیبا و شبیه COCO -
"describe {lang}\n"
: شرحهای توصیفیتر و کمی طولانیتر -
"ocr"
: تشخیص نوری کاراکتر -
"answer {lang} {question}\n"
: پرسشی درباره محتوای تصویر پاسخ میدهد -
"question {lang} {answer}\n"
: ایجاد سوال برای یک پاسخ داده شده -
"detect {object} ; {object}\n"
: اشیاء فهرست شده را در یک تصویر قرار دهید و کادرهای محدود کننده آن اشیاء را برگردانید. -
"segment {object}\n"
: ناحیه اشغال شده توسط شی را در یک تصویر تعیین کنید تا یک قطعه بندی تصویر برای آن شی ایجاد کنید.
گزینه های {lang}
برای کدهای زبان هستند. PaliGemma از تشخیص زبان برای 34 زبان مختلف برای اعلان وظیفه با این گزینه پشتیبانی می کند. می توانید لیست زبان های پشتیبانی شده را در GitHub پیدا کنید.
برای مثال های کد دقیق که نحوه استفاده از این نحو را نشان می دهد، به آموزش تولید خروجی PaliGemma با Keras مراجعه کنید.
دستورات سریع دسته بندی شده
شما می توانید بیش از یک دستور prompt را در یک فرمان به عنوان دسته ای از دستورالعمل ها ارائه دهید. هر دستور prompt باید با یک کاراکتر \n
خاتمه یابد. مثال زیر نشان می دهد که چگونه متن درخواستی خود را برای ارائه دستورالعمل های متعدد ساختار دهید.
prompts = [
'answer en where is the cow standing?\n',
'answer en what color is the cow?\n',
'describe en\n',
'detect cow\n',
'segment cow\n',
]
images = [cow_image, cow_image, cow_image, cow_image, cow_image]
outputs = paligemma.generate(
inputs={
"images": images,
"prompts": prompts,
}
)
for output in outputs:
print(output)
دستورالعمل های سیستم
مدلهای PaliGemma از دستورالعملهای سیستم اضافی فراتر از دستورالعملهای سیستم Gemma از مدلهای پایهای که بر اساس آنها ساخته شدهاند، پشتیبانی نمیکنند.