این صفحه قالب بندی سریع و دستورالعمل های سیستم را برای مدل های PaliGemma شرح می دهد. این مدلهای Gemma از قالببندی عمومی مشابه مدلهای فونداسیون Gemma استفاده میکنند و از یک نحو خاص برای کارهای خاص مرتبط با تصویر پشتیبانی میکنند.
فرمت سریع
مدلهای PaliGemma از همان قالببندی سریع استفاده میکنند که مدلهای پایه Gemma بر اساس آنها ساخته شدهاند. با این حال، مدلهای PaliGemma از یک دستور کار ویژه نیز پشتیبانی میکنند که در بخش بعدی توضیح داده شده است. برای اطلاعات بیشتر در مورد قالببندی درخواست Gemma، به دستور Gemma و دستورالعملهای سیستم مراجعه کنید.
ترتیب داده های تصویر و متن
هنگام درخواست مدلهای PaliGemma با دادههای متنی و تصویری، همیشه باید ابتدا دادههای تصویر و سپس دادههای درخواستی متنی پس از آن ارائه شوند. معکوس کردن ترتیب داده های درخواستی تصویر و متن، یا مخلوط کردن داده های تصویر و متن معمولاً پاسخ های غیرقابل استفاده ایجاد می کند.
دستور دستور کار
مدلهای PaliGemma با الگوهای سریع و نحو خاص برای کارهایی مانند شناسایی شی و نوشتن شرح تصویر آموزش داده شدهاند. میتوانید از این دستور دستوری برای درخواست رفتار خاص از مدلهای PaliGemma به شرح زیر استفاده کنید:
-
"cap {lang}\n"
: شرح کوتاه بسیار خام (فقط توسط PT پشتیبانی می شود) -
"caption {lang}\n"
: زیرنویسهای کوتاه -
"describe {lang}\n"
: شرحهای توصیفیتر و کمی طولانیتر (فقط توسط PT پشتیبانی میشود) -
"ocr"
: تشخیص نوری کاراکتر (فقط توسط PT پشتیبانی می شود) -
"answer {lang} {question}\n"
: پرسشی درباره محتوای تصویر پاسخ میدهد -
"question {lang} {answer}\n"
: ایجاد سوال برای یک پاسخ داده شده (فقط توسط PT پشتیبانی می شود) -
"detect {object} ; {object}\n"
: اشیاء فهرست شده را در یک تصویر قرار دهید و کادرهای محدود کننده آن اشیاء را برگردانید. -
"segment {object} ; {object}\n"
: ناحیه اشغال شده توسط اشیاء فهرست شده در یک تصویر را تعیین کنید تا یک قطعه بندی تصویر برای آن شی ایجاد کنید.
گزینه های {lang}
برای کدهای زبان هستند. PaliGemma از تشخیص زبان برای 34 زبان مختلف برای اعلان وظیفه با این گزینه پشتیبانی می کند. می توانید لیست زبان های پشتیبانی شده را در GitHub پیدا کنید.
برای مثال های کد دقیق که نحوه استفاده از این نحو را نشان می دهد، به آموزش تولید خروجی PaliGemma با Keras مراجعه کنید.
تشویق با زبان طبیعی
اگرچه نحو در بخش قبل توصیه می شود، مدل های ترکیبی نیز از زبان طبیعی برای بسیاری از وظایف پشتیبانی می کنند. به عنوان مثال، "این تصویر را به طور خلاصه توصیف کنید" یا "این متن چیست" همچنان کار خواهد کرد، حتی اگر با نحو دقیق درخواست نشود.
دستورات سریع دسته بندی شده
شما می توانید بیش از یک دستور prompt را در یک فرمان به عنوان دسته ای از دستورالعمل ها ارائه دهید. هر دستور prompt باید با یک کاراکتر \n
خاتمه یابد. مثال زیر نشان می دهد که چگونه متن درخواستی خود را برای ارائه دستورالعمل های متعدد ساختار دهید.
prompts = [
'answer en where is the cow standing?\n',
'answer en what color is the cow?\n',
'describe en\n',
'detect cow\n',
'segment cow\n',
]
images = [cow_image, cow_image, cow_image, cow_image, cow_image]
outputs = paligemma.generate(
inputs={
"images": images,
"prompts": prompts,
}
)
for output in outputs:
print(output)
دستورالعمل های سیستم
مدلهای PaliGemma از دستورالعملهای سیستم اضافی فراتر از دستورالعملهای سیستم Gemma از مدلهای پایهای که بر اساس آنها ساخته شدهاند، پشتیبانی نمیکنند.