জেমা পরিবারের সর্বশেষ মডেল জেমা ৪, বস্তু শনাক্তকরণ, অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR), ভিজ্যুয়াল প্রশ্নোত্তর, ছবির ক্যাপশনিং এবং একাধিক ছবির মধ্যে যুক্তি বিশ্লেষণের মতো বিস্তৃত পরিসরের ভিশন-ল্যাঙ্গুয়েজ টাস্ক সম্পাদন করতে পারে। এটি পরিবর্তনশীল রেজোলিউশন প্রসেসিংও সমর্থন করে, যা আপনাকে ইনফারেন্সের গতি এবং আউটপুটের নির্ভুলতার মধ্যে ভারসাম্য বজায় রাখতে সাহায্য করে।
এই বিভাগে আলোচনা করা হয়েছে কীভাবে আপনার নির্দেশনায় ভিজ্যুয়াল ডেটা কার্যকরভাবে প্রস্তুত ও ব্যবহার করা যায়।
ভিজ্যুয়াল ডেটা
ভিজ্যুয়াল ডেটা বিভিন্ন ফরম্যাট এবং রেজোলিউশনে থাকতে পারে। কোন নির্দিষ্ট ফাইল ফরম্যাটগুলো সমর্থিত হবে (যেমন JPEG এবং PNG), তা নির্ভর করে আপনি আপনার ভিজ্যুয়াল ডেটাকে টেনসরে রূপান্তর করার জন্য কোন ফ্রেমওয়ার্কটি বেছে নিচ্ছেন তার উপর।
জেমার জন্য ভিজ্যুয়াল ডেটা প্রস্তুত করার সময় বিবেচ্য মূল বিষয়গুলো নিচে দেওয়া হলো:
- টোকেন খরচ: প্রতিটি ছবির জন্য সাধারণত ২৫৬টি টোকেন ব্যবহৃত হয়, তবে নির্বাচিত নির্দিষ্ট মডেলের ওপর নির্ভর করে পালিজেমা ছবির টোকেন খরচ ভিন্ন হতে পারে।
- রেজোলিউশন: অনুমিত রেজোলিউশন—অর্থাৎ টোকেনে এনকোড করা এবং মডেল দ্বারা প্রক্রিয়াকৃত পিক্সেলের সংখ্যা—আপনি যে জেমা সংস্করণটি ব্যবহার করছেন তার উপর নির্ভর করে:
- জেমা ৪: টোকেন বাজেটের উপর ভিত্তি করে পরিবর্তনশীল রেজোলিউশন। আপনি ৭০, ১৪০, ২৮০, ৫৬০, বা ১১২০ টোকেনের বাজেট আকারের মধ্যে যেকোনো একটি বেছে নিতে পারেন, যা নির্ধারণ করে ইনপুট ছবিটি কতটা রিসাইজ ও প্রসেস করা হবে।
- জেমা ৩: (৪বি এবং উচ্চতর) ৮৯৬x৮৯৬ রেজোলিউশন, সাথে আরও বড় ছবির জন্য প্যান-অ্যান্ড-স্ক্যান অপশন।
- জেমা 3n: 256x256, 512x512, অথবা 768x768 রেজোলিউশন
- পালিজেমা ২: ২২৪x২২৪, ৪৪৮x৪৪৮, অথবা ৮৯৬x৮৯৬ রেজোলিউশন
কম রেজোলিউশনের ছবি দ্রুত প্রসেস হয়, কিন্তু এতে দৃশ্যমান বিবরণ কম থাকে। ইনফারেন্সের গতি অপ্টিমাইজ করতে, আপনার নির্বাচিত জেমা মডেলের বিল্ট-ইন ইন্টারপ্রেটেড রেজোলিউশনগুলোর কোনো একটির সাথে মেলে এমন ভিজ্যুয়াল ডেটা সরবরাহ করার লক্ষ্য রাখা উচিত।
পরিবর্তনশীল রেজোলিউশন এবং টোকেন বাজেট
জেমা ৪ মডেল বিভিন্ন রেজোলিউশনে ছবি প্রসেস করার ক্ষমতা নিয়ে এসেছে, যা আপনাকে আপনার নির্দিষ্ট কাজের জন্য ভিজ্যুয়াল ইনপুটকে প্রয়োজন অনুযায়ী সাজিয়ে নিতে সাহায্য করে। উদাহরণস্বরূপ, অবজেক্ট ডিটেকশনে ছোট ছোট খুঁটিনাটি বিষয় চিহ্নিত করার জন্য আপনি উচ্চ রেজোলিউশন বেছে নিতে পারেন, অন্যদিকে প্রসেসিংয়ের গতি বাড়ানোর জন্য ভিডিওর প্রতিটি ফ্রেম বিশ্লেষণ করতে নিম্ন রেজোলিউশন বেশি সুবিধাজনক হতে পারে। পরিশেষে, এই ফিচারটি আপনাকে ভিজ্যুয়াল উপস্থাপনার নির্ভুলতার সাথে ইনফারেন্সের গতির ভারসাম্য বজায় রাখতে সাহায্য করে।
আপনি একটি টোকেন বাজেট ব্যবহার করে এই ভারসাম্যটি পরিচালনা করেন। এই বাজেটটি একটি একক ছবির জন্য মডেলটি কতগুলো ভিজ্যুয়াল টোকেন (যা ভিজ্যুয়াল টোকেন এমবেডিং নামেও পরিচিত) তৈরি করতে পারবে, তার উপর একটি কঠোর সীমা নির্ধারণ করে দেয়।
আপনি ৭০, ১৪০, ২৮০, ৫৬০ বা ১১২০ টোকেনের বাজেট বেছে নিতে পারেন:
- উচ্চ বাজেট (যেমন, ১১২০ টোকেন): ছবির উচ্চতর রেজোলিউশন বজায় রাখে। এটি মডেলের প্রক্রিয়াকরণের জন্য আরও বেশি প্যাচ তৈরি করে, যা সূক্ষ্ম ও জটিল বিবরণ ধারণ করার জন্য এটিকে আদর্শ করে তোলে।
- কম বাজেট (যেমন, ৭০ টোকেন): ইমেজটিকে ডাউনস্কেল করা হয়, ফলে প্যাচের সংখ্যা কমে যায়। এটি ইনফারেন্স টাইমকে উল্লেখযোগ্যভাবে ত্বরান্বিত করে।
বাজেট কীভাবে কাজ করে: টোকেন বাজেট প্রাথমিক ইমেজ প্যাচের সর্বোচ্চ সংখ্যা নির্ধারণ করার মাধ্যমে একটি ইমেজ কতটা রিসাইজ হবে তা সরাসরি নিয়ন্ত্রণ করে। সিস্টেমটি আপনার নির্বাচিত বাজেটের চেয়ে নয় গুণ বেশি প্যাচ তৈরি করে। উদাহরণস্বরূপ, ২৮০ টোকেনের বাজেটে সর্বোচ্চ ২,৫২০টি প্যাচ (২৮০ × ৯) তৈরি হয়।
প্যাচগুলো যেভাবে সংকুচিত করা হয়, তার কারণেই এখানে ৯-এর গুণকটি ব্যবহৃত হয়: প্রক্রিয়াকরণের সময়, মডেলটি সংলগ্ন প্যাচগুলোর প্রতিটি ৩x৩ গ্রিড নিয়ে সেগুলোর গড় করে একটি একক এমবেডিং তৈরি করে। এই একত্রিত এমবেডিংগুলোই আপনার চূড়ান্ত ভিজ্যুয়াল টোকেন হয়ে ওঠে। ফলস্বরূপ, একটি উচ্চতর টোকেন বাজেট আরও বেশি চূড়ান্ত এমবেডিং প্রদান করে, যা মডেলকে আপনার ভিজ্যুয়াল ডেটা থেকে আরও সমৃদ্ধ ও সূক্ষ্ম তথ্য আহরণ করতে সাহায্য করে।
করণীয়
জেমাকে ভিজ্যুয়াল ডেটা দিয়ে নির্দেশনা দেওয়ার সময় অনুসরণীয় কিছু সেরা পদ্ধতি নিচে দেওয়া হলো।
সুনির্দিষ্ট হোন : আপনার যদি কোনো নির্দিষ্ট কাজ থাকে, তবে পর্যাপ্ত প্রেক্ষাপট ও নির্দেশনা দিন। ‘এই ছবিটি বর্ণনা করুন’ বলার পরিবর্তে, ‘মানুষ ও বস্তুগুলোর মধ্যকার সম্পর্কের ওপর আলোকপাত করে ছবিটির দৃশ্যটি বর্ণনা করুন’ বলার চেষ্টা করুন।
সীমাবদ্ধতা উল্লেখ করুন : কোনো নির্দিষ্ট শৈলী বা ভাব ফুটিয়ে তোলার জন্য, আপনার নির্দেশনায় তা অবশ্যই উল্লেখ করুন। উদাহরণস্বরূপ, একটি সাধারণ গল্পের অনুরোধের পরিবর্তে, জেমাকে বলুন, "এই ছবিটি নিয়ে ফিল্ম নোয়ারের শৈলীতে একটি ছোট গল্প লেখো।"
পুনরাবৃত্তিমূলক পরিমার্জন : কাঙ্ক্ষিত ফলাফল পেতে প্রায়শই পরীক্ষা-নিরীক্ষা এবং নির্দেশাবলী পরিমার্জন করার প্রয়োজন হয়। একটি সাধারণ নির্দেশাবলী দিয়ে শুরু করুন এবং ধীরে ধীরে জটিলতা বাড়ান।
বর্জনীয়
জেমাকে ভিজ্যুয়াল ডেটা দিয়ে প্রম্পট করার সময় কিছু বিষয় এড়িয়ে চলতে হবে।
অত্যন্ত ঘন বস্তুর ক্ষেত্রে সঠিক গণনা আশা করুন : যদিও জেমা ৪ অবজেক্ট ডিটেকশন এবং ওসিআর-এ পারদর্শী, তবুও এটি অত্যন্ত ঘন বা ক্ষুদ্র বস্তুর (যেমন ঘাসের প্রতিটি পাতা গণনা করা) ক্ষেত্রে সঠিক গণনার পরিবর্তে আনুমানিক সংখ্যা প্রদান করতে পারে। ভিজ্যুয়াল কাজগুলোর জন্য সর্বোত্তম নির্ভুলতা অর্জন করতে, একটি উচ্চতর টোকেন বাজেট ব্যবহার করুন।
অস্পষ্ট বা দ্ব্যর্থক নির্দেশাবলী : "এই ছবির উপর ভিত্তি করে কিছু একটা তৈরি করুন"-এর মতো সাধারণ নির্দেশের পরিবর্তে, কাঙ্ক্ষিত ফলাফল পাওয়ার জন্য সুনির্দিষ্ট নির্দেশনা দিন। 'কিছু একটা' বলতে কী বোঝানো হচ্ছে, তা স্পষ্টভাবে সংজ্ঞায়িত করুন। উদাহরণস্বরূপ, একটি কবিতা, রান্নার রেসিপি বা কোডের অংশবিশেষ।