পালিগেমা

টেক্সট, অডিও ও ইমেজ ইনপুট এবং ২৫৬কেবি পর্যন্ত দীর্ঘ কনটেক্সট উইন্ডো সহ জেমা ৪ প্রকাশিত হয়েছে! আরও জানুন

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

PaliGemma 2 এবং PaliGemma হল PaLI-3 দ্বারা অনুপ্রাণিত লাইটওয়েট ওপেন ভিশন-ল্যাংগুয়েজ মডেল (VLM), এবং SigLIP ভিশন মডেল এবং Gemma ল্যাঙ্গুয়েজ মডেলের মত উন্মুক্ত উপাদানগুলির উপর ভিত্তি করে। PaliGemma ইমেজ এবং টেক্সট উভয়কেই ইনপুট হিসাবে গ্রহণ করে এবং বিস্তারিত এবং প্রসঙ্গ সহ ইমেজ সম্পর্কে প্রশ্নের উত্তর দিতে পারে, যার অর্থ হল PaliGemma ছবির গভীর বিশ্লেষণ করতে পারে এবং দরকারী অন্তর্দৃষ্টি প্রদান করতে পারে, যেমন ইমেজ এবং ছোট ভিডিওগুলির জন্য ক্যাপশনিং, অবজেক্ট সনাক্তকরণ এবং ইমেজের মধ্যে এমবেড করা পাঠ্য পড়া।

PaliGemma 2 3B, 10B, এবং 28B প্যারামিটার আকারে উপলব্ধ, যা যথাক্রমে Gemma 2 2B, 9B এবং 27B মডেলের উপর ভিত্তি করে। মূল PaliGemma মডেলগুলি 3B আকারে উপলব্ধ। জেমা মডেলের বৈকল্পিক সম্পর্কে আরও তথ্যের জন্য, জেমা মডেলের তালিকা দেখুন। PaliGemma মডেল ভেরিয়েন্টগুলি 224 x 224, 448 x 448, এবং 896 x 896 পিক্সেল সহ ইমেজ ইনপুটগুলির জন্য বিভিন্ন পিক্সেল রেজোলিউশন সমর্থন করে।

আপনি নিম্নলিখিত সাইটগুলি থেকে PaliGemma মডেলগুলি দেখতে এবং ডাউনলোড করতে পারেন:

কাগল থেকে ডাউনলোড করুন।
আলিঙ্গন মুখ থেকে ডাউনলোড করুন.

PaliGemma মডেলের তিনটি বিভাগ আছে:

PaliGemma PT - সাধারণ উদ্দেশ্য প্রাক-প্রশিক্ষিত মডেল যা বিভিন্ন কাজের উপর সূক্ষ্ম সুর করা যেতে পারে।
PaliGemma FT - গবেষণা-ভিত্তিক মডেল যা নির্দিষ্ট গবেষণা ডেটাসেটের উপর সূক্ষ্ম-সুরক্ষিত।
PaliGemma মিশ্রণ - মডেলগুলি কাজগুলির একটি মিশ্রণে তৈরি করা হয়েছে যা সাধারণ ব্যবহারের ক্ষেত্রে বাক্সের বাইরে ব্যবহার করা যেতে পারে।

মূল সুবিধার মধ্যে রয়েছে:

মাল্টিমোডাল ক্ষমতা

একই সাথে ছবি এবং টেক্সট ইনপুট উভয়ই পরিচালনা করে।
বহুমুখী বেস মডেল

দৃষ্টি-ভাষা কার্যগুলির বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে।
অফ-দ্য-শেল্ফ অন্বেষণ

অবিলম্বে গবেষণা ব্যবহারের জন্য কাজের মিশ্রণে একটি চেকপয়েন্ট ফাইন-টিউন করা হয়।

পালিগেমা

মাল্টিমোডাল ক্ষমতা

বহুমুখী বেস মডেল

অফ-দ্য-শেল্ফ অন্বেষণ

আরও জানুন

Colab এ চালান

কল্যাবে টিউন করুন

Kaggle এ দেখুন