PaliGemma
PaliGemma یک مدل سبک بینایی-زبان باز (VLM) است که از PaLI-3 الهام گرفته شده است و بر اساس اجزای باز مانند مدل SigLIP vision و مدل زبان Gemma است . PaliGemma هم تصاویر و هم متن را به عنوان ورودی می گیرد و می تواند به سؤالات مربوط به تصاویر با جزئیات و زمینه پاسخ دهد، به این معنی که PaliGemma می تواند تجزیه و تحلیل عمیق تری از تصاویر انجام دهد و بینش مفیدی مانند زیرنویس برای تصاویر و ویدیوهای کوتاه، تشخیص اشیا و خواندن متن تعبیه شده در آن ارائه دهد. تصاویر.
دو مجموعه از مدلهای PaliGemma وجود دارد، یک مجموعه هدف عمومی و یک مجموعه پژوهش محور:
- PaliGemma - مدلهای از پیش آموزشدیده با هدف عمومی که میتوانند در کارهای مختلف به خوبی تنظیم شوند.
- PaliGemma-FT - مدل های پژوهش محور که بر روی مجموعه داده های تحقیقاتی خاص تنظیم شده اند.
مزایای کلیدی عبارتند از:
-
درک چندوجهی
به طور همزمان هم تصاویر و هم متن را درک می کند. -
مدل پایه همه کاره
می توان روی طیف وسیعی از وظایف زبان بینایی به خوبی تنظیم کرد. -
اکتشاف خارج از قفسه
دارای یک ایست بازرسی است که روی ترکیبی از وظایف برای استفاده تحقیقاتی فوری تنظیم شده است.