جما ۴، آخرین مدل از خانواده جما، میتواند طیف گستردهای از وظایف زبان بینایی مانند تشخیص اشیا، تشخیص نوری کاراکتر (OCR)، پاسخ به سوالات بصری، نوشتن شرح تصویر و استدلال در چندین تصویر را انجام دهد. همچنین از پردازش با وضوح متغیر پشتیبانی میکند و به شما امکان میدهد سرعت استنتاج و دقت خروجی را متعادل کنید.
این بخش به بررسی چگونگی تهیه و استفاده مؤثر از دادههای بصری در دستورالعملهای شما میپردازد.
دادههای بصری
دادههای بصری میتوانند در قالبها و وضوحهای مختلفی ارائه شوند. قالبهای فایل خاص پشتیبانیشده (مانند JPEG و PNG) به چارچوبی که برای تبدیل دادههای بصری خود به تانسورها انتخاب میکنید، بستگی دارد.
در اینجا ملاحظات کلیدی هنگام تهیه دادههای بصری برای Gemma آورده شده است:
- هزینه توکن: هر تصویر معمولاً از ۲۵۶ توکن استفاده میکند، اگرچه هزینه توکن تصویر PaliGemma بسته به مدل خاص انتخاب شده متفاوت است.
- وضوح تصویر: وضوح تفسیر شده - به معنی تعداد پیکسلهایی که به صورت توکن کدگذاری شده و توسط مدل پردازش میشوند - به نسخه Gemma مورد استفاده شما بستگی دارد:
- Gemma 4: وضوح متغیر بر اساس بودجه توکن. میتوانید بین اندازههای بودجه ۷۰، ۱۴۰، ۲۸۰، ۵۶۰ یا ۱۱۲۰ توکن یکی را انتخاب کنید، که تعیین میکند تصویر ورودی چقدر تغییر اندازه داده و پردازش شود.
- Gemma 3: (4B و بالاتر) وضوح تصویر 896x896، با گزینههای pan-and-scan برای تصاویر بزرگتر.
- Gemma 3n: وضوح تصویر ۲۵۶x۲۵۶، ۵۱۲x۵۱۲ یا ۷۶۸x۷۶۸
- پالیگما ۲: وضوح تصویر ۲۲۴x۲۲۴، ۴۴۸x۴۴۸ یا ۸۹۶x۸۹۶
تصاویر با وضوح پایینتر سریعتر پردازش میشوند اما جزئیات بصری کمتری را ثبت میکنند. برای بهینهسازی سرعت استنتاج، باید دادههای بصری مطابق با یکی از وضوحهای تفسیر شده داخلی مدل Gemma انتخابی خود ارائه دهید.
وضوح متغیر و بودجههای توکن
مدلهای Gemma 4 قابلیت پردازش تصاویر با وضوحهای مختلف را ارائه میدهند و به شما این امکان را میدهند که ورودی بصری را با وظیفه خاص خود تطبیق دهید. به عنوان مثال، ممکن است برای مشخص کردن جزئیات کوچک در تشخیص اشیاء، وضوح بالا را انتخاب کنید، در حالی که برای تجزیه و تحلیل فریمهای ویدیویی مجزا و افزایش سرعت پردازش، وضوح پایینتر ممکن است ترجیح داده شود. در نهایت، این ویژگی به شما امکان میدهد سرعت استنتاج را در مقابل دقت نمایش بصری متعادل کنید.
شما این بدهبستان را با استفاده از بودجه توکن مدیریت میکنید. این بودجه، محدودیت سختی را برای تعداد توکنهای بصری (که به عنوان جاسازی توکنهای بصری نیز شناخته میشوند) که مدل میتواند برای یک تصویر واحد تولید کند، تعیین میکند.
شما میتوانید بودجهای معادل ۷۰، ۱۴۰، ۲۸۰، ۵۶۰ یا ۱۱۲۰ توکن انتخاب کنید:
- بودجههای بالا (مثلاً ۱۱۲۰ توکن): وضوح تصویر بالاتری را حفظ میکند. این کار باعث ایجاد قطعات بیشتری برای پردازش مدل میشود و آن را برای ثبت جزئیات دقیق و پیچیده ایدهآل میکند.
- بودجه کم (مثلاً ۷۰ توکن): تصویر را کوچکتر میکند و در نتیجه تعداد تکههای کمتری ایجاد میشود. این امر به طور قابل توجهی زمان استنتاج را تسریع میکند.
نحوه عملکرد بودجه بودجه توکن با تعیین حداکثر تعداد وصلههای اولیه تصویر، مستقیماً میزان تغییر اندازه تصویر را کنترل میکند. سیستم نه برابر بودجه انتخابی شما وصله تولید میکند. به عنوان مثال، بودجهای با ۲۸۰ توکن تا ۲۵۲۰ وصله (۲۸۰ × ۹) تولید میکند.
ضریب ۹ به دلیل نحوه فشردهسازی تکهها وجود دارد: در طول پردازش، مدل هر شبکه ۳x۳ از تکههای مجاور را میگیرد و میانگین آنها را با هم جمع میکند تا یک جاسازی واحد ایجاد کند. این جاسازیهای تلفیقی به توکنهای بصری نهایی شما تبدیل میشوند. در نتیجه، بودجه توکن بالاتر، جاسازیهای نهایی بیشتری را به همراه دارد و به مدل اجازه میدهد اطلاعات غنیتر و جزئیتری را از دادههای بصری شما استخراج کند.
بایدها
در اینجا چند روش برتر برای استفاده از دادههای بصری در هنگام درخواست از جما آورده شده است.
دقیق باشید : اگر وظیفه خاصی دارید، زمینه و راهنمایی کافی ارائه دهید. به جای «توصیف این تصویر»، سعی کنید «صحنه موجود در این تصویر را توصیف کنید، با تمرکز بر رابطه بین افراد و اشیاء».
محدودیتها را ارائه دهید : برای دستیابی به یک سبک یا لحن خاص، حتماً آن را در درخواست خود مشخص کنید. برای مثال، به جای درخواست یک داستان کلی، از جما بخواهید که «یک داستان کوتاه در مورد این تصویر به سبک یک فیلم نوآر بنویسد».
اصلاح مکرر : رسیدن به خروجی مورد نظر اغلب نیاز به آزمایش و اصلاح دستورالعملها دارد. با یک دستورالعمل ساده شروع کنید و به تدریج پیچیدگی را اضافه کنید.
نبایدها
در اینجا مواردی وجود دارد که باید هنگام ارائه دادههای بصری به جما از آنها اجتناب کنید.
انتظار شمارش دقیق برای اشیاء بسیار متراکم : اگرچه Gemma 4 در تشخیص اشیاء و OCR عالی است، اما ممکن است همچنان به جای شمارش دقیق برای اشیاء بسیار متراکم یا ریز (مانند شمارش تک تک برگهای چمن)، تقریبی ارائه دهد. برای دستیابی به بهترین دقت برای کارهای بصری، از بودجه توکن بالاتری استفاده کنید.
دستورالعملهای مبهم یا دوپهلو : به جای دستورالعملهای کلی مانند «بر اساس این تصویر چیزی تولید کنید»، دستورالعملهای مشخصی برای دستیابی به خروجیهای مورد نظر ارائه دهید. به طور واضح تعریف کنید که «چیزی» چیست. به عنوان مثال، یک شعر، دستور غذا یا قطعه کد.