درک بینایی

جما ۴، آخرین مدل از خانواده جما، می‌تواند طیف گسترده‌ای از وظایف زبان بینایی مانند تشخیص اشیا، تشخیص نوری کاراکتر (OCR)، پاسخ به سوالات بصری، نوشتن شرح تصویر و استدلال در چندین تصویر را انجام دهد. همچنین از پردازش با وضوح متغیر پشتیبانی می‌کند و به شما امکان می‌دهد سرعت استنتاج و دقت خروجی را متعادل کنید.

این بخش به بررسی چگونگی تهیه و استفاده مؤثر از داده‌های بصری در دستورالعمل‌های شما می‌پردازد.

داده‌های بصری

داده‌های بصری می‌توانند در قالب‌ها و وضوح‌های مختلفی ارائه شوند. قالب‌های فایل خاص پشتیبانی‌شده (مانند JPEG و PNG) به چارچوبی که برای تبدیل داده‌های بصری خود به تانسورها انتخاب می‌کنید، بستگی دارد.

در اینجا ملاحظات کلیدی هنگام تهیه داده‌های بصری برای Gemma آورده شده است:

  • هزینه توکن: هر تصویر معمولاً از ۲۵۶ توکن استفاده می‌کند، اگرچه هزینه توکن تصویر PaliGemma بسته به مدل خاص انتخاب شده متفاوت است.
  • وضوح تصویر: وضوح تفسیر شده - به معنی تعداد پیکسل‌هایی که به صورت توکن کدگذاری شده و توسط مدل پردازش می‌شوند - به نسخه Gemma مورد استفاده شما بستگی دارد:
    • Gemma 4: وضوح متغیر بر اساس بودجه توکن. می‌توانید بین اندازه‌های بودجه ۷۰، ۱۴۰، ۲۸۰، ۵۶۰ یا ۱۱۲۰ توکن یکی را انتخاب کنید، که تعیین می‌کند تصویر ورودی چقدر تغییر اندازه داده و پردازش شود.
    • Gemma 3: (4B و بالاتر) وضوح تصویر 896x896، با گزینه‌های pan-and-scan برای تصاویر بزرگتر.
    • Gemma 3n: وضوح تصویر ۲۵۶x۲۵۶، ۵۱۲x۵۱۲ یا ۷۶۸x۷۶۸
    • پالی‌گما ۲: وضوح تصویر ۲۲۴x۲۲۴، ۴۴۸x۴۴۸ یا ۸۹۶x۸۹۶

تصاویر با وضوح پایین‌تر سریع‌تر پردازش می‌شوند اما جزئیات بصری کمتری را ثبت می‌کنند. برای بهینه‌سازی سرعت استنتاج، باید داده‌های بصری مطابق با یکی از وضوح‌های تفسیر شده داخلی مدل Gemma انتخابی خود ارائه دهید.

وضوح متغیر و بودجه‌های توکن

مدل‌های Gemma 4 قابلیت پردازش تصاویر با وضوح‌های مختلف را ارائه می‌دهند و به شما این امکان را می‌دهند که ورودی بصری را با وظیفه خاص خود تطبیق دهید. به عنوان مثال، ممکن است برای مشخص کردن جزئیات کوچک در تشخیص اشیاء، وضوح بالا را انتخاب کنید، در حالی که برای تجزیه و تحلیل فریم‌های ویدیویی مجزا و افزایش سرعت پردازش، وضوح پایین‌تر ممکن است ترجیح داده شود. در نهایت، این ویژگی به شما امکان می‌دهد سرعت استنتاج را در مقابل دقت نمایش بصری متعادل کنید.

شما این بده‌بستان را با استفاده از بودجه توکن مدیریت می‌کنید. این بودجه، محدودیت سختی را برای تعداد توکن‌های بصری (که به عنوان جاسازی توکن‌های بصری نیز شناخته می‌شوند) که مدل می‌تواند برای یک تصویر واحد تولید کند، تعیین می‌کند.

شما می‌توانید بودجه‌ای معادل ۷۰، ۱۴۰، ۲۸۰، ۵۶۰ یا ۱۱۲۰ توکن انتخاب کنید:

  • بودجه‌های بالا (مثلاً ۱۱۲۰ توکن): وضوح تصویر بالاتری را حفظ می‌کند. این کار باعث ایجاد قطعات بیشتری برای پردازش مدل می‌شود و آن را برای ثبت جزئیات دقیق و پیچیده ایده‌آل می‌کند.
  • بودجه کم (مثلاً ۷۰ توکن): تصویر را کوچک‌تر می‌کند و در نتیجه تعداد تکه‌های کمتری ایجاد می‌شود. این امر به طور قابل توجهی زمان استنتاج را تسریع می‌کند.

نحوه عملکرد بودجه بودجه توکن با تعیین حداکثر تعداد وصله‌های اولیه تصویر، مستقیماً میزان تغییر اندازه تصویر را کنترل می‌کند. سیستم نه برابر بودجه انتخابی شما وصله تولید می‌کند. به عنوان مثال، بودجه‌ای با ۲۸۰ توکن تا ۲۵۲۰ وصله (۲۸۰ × ۹) تولید می‌کند.

ضریب ۹ به دلیل نحوه فشرده‌سازی تکه‌ها وجود دارد: در طول پردازش، مدل هر شبکه ۳x۳ از تکه‌های مجاور را می‌گیرد و میانگین آنها را با هم جمع می‌کند تا یک جاسازی واحد ایجاد کند. این جاسازی‌های تلفیقی به توکن‌های بصری نهایی شما تبدیل می‌شوند. در نتیجه، بودجه توکن بالاتر، جاسازی‌های نهایی بیشتری را به همراه دارد و به مدل اجازه می‌دهد اطلاعات غنی‌تر و جزئی‌تری را از داده‌های بصری شما استخراج کند.

بایدها

در اینجا چند روش برتر برای استفاده از داده‌های بصری در هنگام درخواست از جما آورده شده است.

  • دقیق باشید : اگر وظیفه خاصی دارید، زمینه و راهنمایی کافی ارائه دهید. به جای «توصیف این تصویر»، سعی کنید «صحنه موجود در این تصویر را توصیف کنید، با تمرکز بر رابطه بین افراد و اشیاء».

  • محدودیت‌ها را ارائه دهید : برای دستیابی به یک سبک یا لحن خاص، حتماً آن را در درخواست خود مشخص کنید. برای مثال، به جای درخواست یک داستان کلی، از جما بخواهید که «یک داستان کوتاه در مورد این تصویر به سبک یک فیلم نوآر بنویسد».

  • اصلاح مکرر : رسیدن به خروجی مورد نظر اغلب نیاز به آزمایش و اصلاح دستورالعمل‌ها دارد. با یک دستورالعمل ساده شروع کنید و به تدریج پیچیدگی را اضافه کنید.

نبایدها

در اینجا مواردی وجود دارد که باید هنگام ارائه داده‌های بصری به جما از آنها اجتناب کنید.

  • انتظار شمارش دقیق برای اشیاء بسیار متراکم : اگرچه Gemma 4 در تشخیص اشیاء و OCR عالی است، اما ممکن است همچنان به جای شمارش دقیق برای اشیاء بسیار متراکم یا ریز (مانند شمارش تک تک برگ‌های چمن)، تقریبی ارائه دهد. برای دستیابی به بهترین دقت برای کارهای بصری، از بودجه توکن بالاتری استفاده کنید.

  • دستورالعمل‌های مبهم یا دوپهلو : به جای دستورالعمل‌های کلی مانند «بر اساس این تصویر چیزی تولید کنید»، دستورالعمل‌های مشخصی برای دستیابی به خروجی‌های مورد نظر ارائه دهید. به طور واضح تعریف کنید که «چیزی» چیست. به عنوان مثال، یک شعر، دستور غذا یا قطعه کد.