পালিগেমা
PaliGemma হল একটি লাইটওয়েট ওপেন ভিশন-ল্যাংগুয়েজ মডেল (VLM) PaLI-3 দ্বারা অনুপ্রাণিত, এবং SigLIP ভিশন মডেল এবং জেমা ভাষা মডেলের মত উন্মুক্ত উপাদানগুলির উপর ভিত্তি করে। PaliGemma ইমেজ এবং টেক্সট উভয়কেই ইনপুট হিসাবে গ্রহণ করে এবং বিস্তারিত এবং প্রসঙ্গ সহ ইমেজ সম্পর্কে প্রশ্নের উত্তর দিতে পারে, যার অর্থ হল PaliGemma ছবিগুলির গভীর বিশ্লেষণ করতে পারে এবং দরকারী অন্তর্দৃষ্টি প্রদান করতে পারে, যেমন ছবি এবং ছোট ভিডিওগুলির জন্য ক্যাপশনিং, অবজেক্ট সনাক্তকরণ এবং এর মধ্যে এমবেড করা পাঠ্য ছবি
পালিজেমা মডেলের দুটি সেট রয়েছে, একটি সাধারণ উদ্দেশ্য সেট এবং একটি গবেষণা-ভিত্তিক সেট:
- PaliGemma - সাধারণ উদ্দেশ্য পূর্বপ্রশিক্ষিত মডেল যা বিভিন্ন কাজের উপর সূক্ষ্ম সুর করা যেতে পারে।
- PaliGemma-FT - গবেষণা-ভিত্তিক মডেল যা নির্দিষ্ট গবেষণা ডেটাসেটের উপর সূক্ষ্ম-সুরক্ষিত।
মূল সুবিধার মধ্যে রয়েছে:
-
মাল্টিমোডাল বোধগম্যতা
একই সাথে ইমেজ এবং টেক্সট উভয়ই বোঝে। -
বহুমুখী বেস মডেল
দৃষ্টি-ভাষা কার্যগুলির বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে। -
অফ-দ্য-শেল্ফ অন্বেষণ
অবিলম্বে গবেষণা ব্যবহারের জন্য টাস্কের মিশ্রণে একটি চেকপয়েন্ট ফাইন-টিউন করা হয়।