PaliGemma

PaliGemma یک مدل سبک بینایی-زبان باز (VLM) است که از PaLI-3 الهام گرفته شده است و بر اساس اجزای باز مانند مدل SigLIP vision و مدل زبان Gemma است . PaliGemma هم تصاویر و هم متن را به عنوان ورودی می گیرد و می تواند به سؤالات مربوط به تصاویر با جزئیات و زمینه پاسخ دهد، به این معنی که PaliGemma می تواند تجزیه و تحلیل عمیق تری از تصاویر انجام دهد و بینش مفیدی مانند زیرنویس برای تصاویر و ویدیوهای کوتاه، تشخیص اشیا و خواندن متن تعبیه شده در آن ارائه دهد. تصاویر.

دو مجموعه از مدل‌های PaliGemma وجود دارد، یک مجموعه هدف عمومی و یک مجموعه پژوهش محور:

  • PaliGemma - مدل‌های از پیش آموزش‌دیده با هدف عمومی که می‌توانند در کارهای مختلف به خوبی تنظیم شوند.
  • PaliGemma-FT - مدل های پژوهش محور که بر روی مجموعه داده های تحقیقاتی خاص تنظیم شده اند.

مزایای کلیدی عبارتند از:

  • به طور همزمان هم تصاویر و هم متن را درک می کند.
  • می توان روی طیف وسیعی از وظایف زبان بینایی به خوبی تنظیم کرد.
  • دارای یک ایست بازرسی است که روی ترکیبی از وظایف برای استفاده تحقیقاتی فوری تنظیم شده است.

بیشتر بدانید

کارت مدل PaliGemma حاوی اطلاعات دقیق در مورد مدل، اطلاعات پیاده سازی، اطلاعات ارزیابی، استفاده از مدل و محدودیت ها و غیره است.
کد، نوت بوک های Colab، اطلاعات و بحث های بیشتر درباره PaliGemma را در Kaggle مشاهده کنید.
یک مثال کاری برای تنظیم دقیق PaliGemma با JAX در Colab اجرا کنید.