PaliGemma

PaliGemma هو نموذج لغة رؤية (VLM) خفيف ومفتوح مستوحى من PaLI-3، وتعتمد على المكونات المفتوحة مثل SigLIP نموذج الرؤية ولغة Gemma تأخذ PaliGemma كلاً من الصور والنصوص كمدخلات ويمكنها الإجابة عن الأسئلة حول والصور ذات التفاصيل والسياق، مما يعني أن PaliGemma يمكن أن يقوم بإجراء تحليل أعمق والصور وتوفر رؤى مفيدة، مثل شرح الصور ومقاطع الفيديو القصيرة، ورصد الكائنات وقراءة النص المُضمَّن في الصور.

هناك مجموعتان من نماذج PaliGemma، وهي مجموعة أغراض عامة ومجموعة موجهة نحو البحث:

  • PaliGemma - نماذج مدرَّبة مسبقًا للأغراض العامة يمكن تحسينها في مجموعة متنوعة من المهام.
  • PaliGemma-FT: نماذج موجهة نحو البحث تم تحسينها استنادًا إلى مجموعات بيانات بحثية محددة.

تشمل المزايا الرئيسية ما يلي:

  • يفهم كل من الصور والنص في آنٍ واحد.
  • يمكن تحسينه على مجموعة كبيرة من المهام المتعلقة بالرؤية.
  • تأتي مع نقطة تفتيش تم ضبطها على مزيج من المهام لاستخدام البحث الفوري.

مزيد من المعلومات

تحتوي بطاقة نموذج PaliGemma على معلومات تفصيلية حول النموذج، ومعلومات التنفيذ، ومعلومات التقييم، واستخدام النموذج والقيود المفروضة عليه، وغير ذلك.
عرض المزيد من التعليمات البرمجية ودفاتر Colab والمعلومات والمناقشات حول PaliGemma على Kaggle.
شغِّل مثالاً عمليًا لضبط PaliGemma باستخدام JAX في Colab.