PaliGemma

جما ۴ با ورودی متن، صدا و تصویر و پنجره متنی با ظرفیت تا ۲۵۶ هزار دلار منتشر شد! اطلاعات بیشتر

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

PaliGemma 2 و PaliGemma مدل‌های سبک‌وزن بینایی باز (VLM) هستند که از PaLI-3 الهام گرفته شده‌اند و بر اساس اجزای باز مانند مدل SigLIP vision و مدل زبان Gemma هستند . PaliGemma هم تصاویر و هم متن را به عنوان ورودی می گیرد و می تواند به سؤالات مربوط به تصاویر با جزئیات و زمینه پاسخ دهد، به این معنی که PaliGemma می تواند تجزیه و تحلیل عمیق تری از تصاویر انجام دهد و بینش مفیدی را ارائه دهد، مانند نوشتن شرح تصاویر و ویدیوهای کوتاه، تشخیص اشیا و خواندن متن تعبیه شده در تصاویر.

PaliGemma 2 در اندازه های پارامتر 3B، 10B و 28B موجود است که به ترتیب بر اساس مدل های Gemma 2 2B، 9B و 27B هستند. مدل های اصلی PaliGemma در اندازه 3B موجود هستند. برای اطلاعات بیشتر در مورد انواع مدل Gemma، به لیست مدل های Gemma مراجعه کنید. انواع مدل PaliGemma از وضوح پیکسل های مختلف برای ورودی های تصویر پشتیبانی می کنند، از جمله 224 x 224، 448 x 448، و 896 x 896 پیکسل.

مدل های PaliGemma را می توانید از سایت های زیر مشاهده و دانلود کنید:

دانلود از Kaggle .
دانلود از Hugging Face .

سه دسته از مدل های PaliGemma وجود دارد:

PaliGemma PT - مدل های از پیش آموزش دیده با هدف عمومی که می توانند در کارهای مختلف به خوبی تنظیم شوند.
PaliGemma FT - مدل های پژوهش محور که بر روی مجموعه داده های تحقیقاتی خاص تنظیم شده اند.
ترکیب PaliGemma - مدل‌هایی که با ترکیبی از وظایف تنظیم شده‌اند که می‌توانند خارج از جعبه برای موارد استفاده معمول استفاده شوند.

مزایای کلیدی عبارتند از:

قابلیت چندوجهی

به طور همزمان هم تصاویر و هم ورودی متن را کنترل می کند.
مدل پایه همه کاره

می توان روی طیف وسیعی از وظایف زبان بینایی به خوبی تنظیم کرد.
اکتشاف خارج از قفسه

دارای یک ایست بازرسی است که روی ترکیبی از وظایف برای استفاده تحقیقاتی فوری تنظیم شده است.

PaliGemma

قابلیت چندوجهی

مدل پایه همه کاره

اکتشاف خارج از قفسه

بیشتر بدانید

در کولب اجرا کنید

کولاب در کولب

مشاهده در Kaggle