دستورات سیستم و اعلان PaliGemma

این صفحه قالب بندی سریع و دستورالعمل های سیستم را برای مدل های PaliGemma شرح می دهد. این مدل‌های Gemma از قالب‌بندی عمومی مشابه مدل‌های فونداسیون Gemma استفاده می‌کنند و از یک نحو خاص برای کارهای خاص مرتبط با تصویر پشتیبانی می‌کنند.

فرمت سریع

مدل‌های PaliGemma از همان قالب‌بندی سریع استفاده می‌کنند که مدل‌های پایه Gemma بر اساس آن‌ها ساخته شده‌اند. با این حال، مدل‌های PaliGemma از یک دستور کار ویژه نیز پشتیبانی می‌کنند که در بخش بعدی توضیح داده شده است. برای اطلاعات بیشتر در مورد قالب‌بندی درخواست Gemma، به دستور Gemma و دستورالعمل‌های سیستم مراجعه کنید.

ترتیب داده های تصویر و متن

هنگام درخواست مدل‌های PaliGemma با داده‌های متنی و تصویری، همیشه باید ابتدا داده‌های تصویر و سپس داده‌های درخواستی متنی پس از آن ارائه شوند. معکوس کردن ترتیب داده های درخواستی تصویر و متن، یا مخلوط کردن داده های تصویر و متن معمولاً پاسخ های غیرقابل استفاده ایجاد می کند.

دستور دستور کار

مدل‌های PaliGemma با الگوهای سریع و نحو خاص برای کارهایی مانند شناسایی شی و نوشتن شرح تصویر آموزش داده شده‌اند. می‌توانید از این دستور دستوری برای درخواست رفتار خاص از مدل‌های PaliGemma به شرح زیر استفاده کنید:

"cap {lang}\n" : شرح کوتاه بسیار خام (فقط توسط PT پشتیبانی می شود)
"caption {lang}\n" : زیرنویس‌های کوتاه
"describe {lang}\n" : شرح‌های توصیفی‌تر و کمی طولانی‌تر (فقط توسط PT پشتیبانی می‌شود)
"ocr" : تشخیص نوری کاراکتر (فقط توسط PT پشتیبانی می شود)
"answer {lang} {question}\n" : پرسشی درباره محتوای تصویر پاسخ می‌دهد
"question {lang} {answer}\n" : ایجاد سوال برای یک پاسخ داده شده (فقط توسط PT پشتیبانی می شود)
"detect {object} ; {object}\n" : اشیاء فهرست شده را در یک تصویر قرار دهید و کادرهای محدود کننده آن اشیاء را برگردانید.
"segment {object} ; {object}\n" : ناحیه اشغال شده توسط اشیاء فهرست شده در یک تصویر را تعیین کنید تا یک قطعه بندی تصویر برای آن شی ایجاد کنید.

گزینه های {lang} برای کدهای زبان هستند. PaliGemma از تشخیص زبان برای 34 زبان مختلف برای اعلان وظیفه با این گزینه پشتیبانی می کند. می توانید لیست زبان های پشتیبانی شده را در GitHub پیدا کنید.

برای مثال های کد دقیق که نحوه استفاده از این نحو را نشان می دهد، به آموزش تولید خروجی PaliGemma با Keras مراجعه کنید.

تشویق با زبان طبیعی

اگرچه نحو در بخش قبل توصیه می شود، مدل های ترکیبی نیز از زبان طبیعی برای بسیاری از وظایف پشتیبانی می کنند. به عنوان مثال، "این تصویر را به طور خلاصه توصیف کنید" یا "این متن چیست" همچنان کار خواهد کرد، حتی اگر با نحو دقیق درخواست نشود.

دستورات سریع دسته بندی شده

شما می توانید بیش از یک دستور prompt را در یک فرمان به عنوان دسته ای از دستورالعمل ها ارائه دهید. هر دستور prompt باید با یک کاراکتر \n خاتمه یابد. مثال زیر نشان می دهد که چگونه متن درخواستی خود را برای ارائه دستورالعمل های متعدد ساختار دهید.

prompts = [
    'answer en where is the cow standing?\n',
    'answer en what color is the cow?\n',
    'describe en\n',
    'detect cow\n',
    'segment cow\n',
]
images = [cow_image, cow_image, cow_image, cow_image, cow_image]
outputs = paligemma.generate(
    inputs={
        "images": images,
        "prompts": prompts,
    }
)
for output in outputs:
    print(output)

دستورالعمل های سیستم

مدل‌های PaliGemma از دستورالعمل‌های سیستم اضافی فراتر از دستورالعمل‌های سیستم Gemma از مدل‌های پایه‌ای که بر اساس آن‌ها ساخته شده‌اند، پشتیبانی نمی‌کنند.