دستورات سیستم و اعلان PaliGemma

این صفحه قالب بندی سریع و دستورالعمل های سیستم را برای مدل های PaliGemma شرح می دهد. این مدل‌های مدل Gemma از قالب‌بندی عمومی مشابه مدل‌های فونداسیون Gemma استفاده می‌کنند، و همچنین از یک نحو خاص برای کارهای خاص مرتبط با تصویر پشتیبانی می‌کنند.

فرمت سریع

مدل‌های PaliGemma از همان قالب‌بندی سریع استفاده می‌کنند که مدل‌های پایه Gemma بر اساس آن‌ها ساخته شده‌اند. با این حال، مدل‌های PaliGemma از یک دستور کار ویژه نیز پشتیبانی می‌کنند که در بخش بعدی توضیح داده شده است. برای اطلاعات بیشتر در مورد قالب‌بندی درخواست Gemma، به دستور Gemma و دستورالعمل‌های سیستم مراجعه کنید.

ترتیب داده های تصویر و متن

هنگام درخواست مدل‌های PaliGemma با داده‌های متنی و تصویری، همیشه باید ابتدا داده‌های تصویر و سپس داده‌های درخواستی متنی پس از آن ارائه شوند. معکوس کردن ترتیب داده های درخواستی تصویر و متن، یا مخلوط کردن داده های تصویر و متن معمولاً پاسخ های غیرقابل استفاده ایجاد می کند.

دستور دستور کار

مدل‌های PaliGemma با الگوهای سریع و نحو خاص برای کارهایی مانند شناسایی شی و نوشتن شرح تصویر آموزش داده شده‌اند. می‌توانید از این دستور دستوری برای درخواست رفتار خاص از مدل‌های PaliGemma استفاده کنید، به شرح زیر:

  • "cap {lang}\n" : شرح کوتاه بسیار خام (از WebLI-alt)
  • "caption {lang}\n" : زیرنویس‌های کوتاه زیبا و شبیه COCO
  • "describe {lang}\n" : شرح‌های توصیفی‌تر و کمی طولانی‌تر
  • "ocr" : تشخیص نوری کاراکتر
  • "answer {lang} {question}\n" : پرسشی درباره محتوای تصویر پاسخ می‌دهد
  • "question {lang} {answer}\n" : ایجاد سوال برای یک پاسخ داده شده
  • "detect {object} ; {object}\n" : اشیاء فهرست شده را در یک تصویر قرار دهید و کادرهای محدود کننده آن اشیاء را برگردانید.
  • "segment {object}\n" : ناحیه اشغال شده توسط شی را در یک تصویر تعیین کنید تا یک قطعه بندی تصویر برای آن شی ایجاد کنید.

گزینه های {lang} برای کدهای زبان هستند. PaliGemma از تشخیص زبان برای 34 زبان مختلف برای اعلان وظیفه با این گزینه پشتیبانی می کند. می توانید لیست زبان های پشتیبانی شده را در GitHub پیدا کنید.

برای مثال های کد دقیق که نحوه استفاده از این نحو را نشان می دهد، به آموزش تولید خروجی PaliGemma با Keras مراجعه کنید.

دستورات سریع دسته بندی شده

شما می توانید بیش از یک دستور prompt را در یک فرمان به عنوان دسته ای از دستورالعمل ها ارائه دهید. هر دستور prompt باید با یک کاراکتر \n خاتمه یابد. مثال زیر نشان می دهد که چگونه متن درخواستی خود را برای ارائه دستورالعمل های متعدد ساختار دهید.

prompts = [
    'answer en where is the cow standing?\n',
    'answer en what color is the cow?\n',
    'describe en\n',
    'detect cow\n',
    'segment cow\n',
]
images = [cow_image, cow_image, cow_image, cow_image, cow_image]
outputs = paligemma.generate(
    inputs={
        "images": images,
        "prompts": prompts,
    }
)
for output in outputs:
    print(output)

دستورالعمل های سیستم

مدل‌های PaliGemma از دستورالعمل‌های سیستم اضافی فراتر از دستورالعمل‌های سیستم Gemma از مدل‌های پایه‌ای که بر اساس آن‌ها ساخته شده‌اند، پشتیبانی نمی‌کنند.