পালিগেমা

PaliGemma হল একটি লাইটওয়েট ওপেন ভিশন-ল্যাংগুয়েজ মডেল (VLM) PaLI-3 দ্বারা অনুপ্রাণিত, এবং SigLIP ভিশন মডেল এবং জেমা ভাষা মডেলের মত উন্মুক্ত উপাদানগুলির উপর ভিত্তি করে। PaliGemma ইমেজ এবং টেক্সট উভয়কেই ইনপুট হিসাবে গ্রহণ করে এবং বিস্তারিত এবং প্রসঙ্গ সহ ইমেজ সম্পর্কে প্রশ্নের উত্তর দিতে পারে, যার অর্থ হল PaliGemma ছবিগুলির গভীর বিশ্লেষণ করতে পারে এবং দরকারী অন্তর্দৃষ্টি প্রদান করতে পারে, যেমন ছবি এবং ছোট ভিডিওগুলির জন্য ক্যাপশনিং, অবজেক্ট সনাক্তকরণ এবং এর মধ্যে এমবেড করা পাঠ্য ছবি

পালিজেমা মডেলের দুটি সেট রয়েছে, একটি সাধারণ উদ্দেশ্য সেট এবং একটি গবেষণা-ভিত্তিক সেট:

  • PaliGemma - সাধারণ উদ্দেশ্য পূর্বপ্রশিক্ষিত মডেল যা বিভিন্ন কাজের উপর সূক্ষ্ম সুর করা যেতে পারে।
  • PaliGemma-FT - গবেষণা-ভিত্তিক মডেল যা নির্দিষ্ট গবেষণা ডেটাসেটের উপর সূক্ষ্ম-সুরক্ষিত।

মূল সুবিধার মধ্যে রয়েছে:

  • একই সাথে ইমেজ এবং টেক্সট উভয়ই বোঝে।
  • দৃষ্টি-ভাষা কার্যগুলির বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে।
  • অবিলম্বে গবেষণা ব্যবহারের জন্য টাস্কের মিশ্রণে একটি চেকপয়েন্ট ফাইন-টিউন করা হয়।

আরও জানুন

PaliGemma এর মডেল কার্ডে মডেল সম্পর্কে বিস্তারিত তথ্য, বাস্তবায়নের তথ্য, মূল্যায়ন তথ্য, মডেলের ব্যবহার এবং সীমাবদ্ধতা এবং আরও অনেক কিছু রয়েছে।
Kaggle-এ PaliGemma সম্পর্কে আরও কোড, Colab নোটবুক, তথ্য এবং আলোচনা দেখুন।
Colab-এ JAX-এর সাথে PaliGemma ফাইন-টিউন করার জন্য একটি কার্যকরী উদাহরণ চালান।