PaliGemma
PaliGemma هو نموذج لغة رؤية (VLM) خفيف ومفتوح مستوحى من PaLI-3، وتعتمد على المكونات المفتوحة مثل SigLIP نموذج الرؤية ولغة Gemma تأخذ PaliGemma كلاً من الصور والنصوص كمدخلات ويمكنها الإجابة عن الأسئلة حول والصور ذات التفاصيل والسياق، مما يعني أن PaliGemma يمكن أن يقوم بإجراء تحليل أعمق والصور وتوفر رؤى مفيدة، مثل شرح الصور ومقاطع الفيديو القصيرة، ورصد الكائنات وقراءة النص المُضمَّن في الصور.
هناك مجموعتان من نماذج PaliGemma، وهي مجموعة أغراض عامة ومجموعة موجهة نحو البحث:
- PaliGemma - نماذج مدرَّبة مسبقًا للأغراض العامة يمكن تحسينها في مجموعة متنوعة من المهام.
- PaliGemma-FT: نماذج موجهة نحو البحث تم تحسينها استنادًا إلى مجموعات بيانات بحثية محددة.
تشمل المزايا الرئيسية ما يلي:
-
الفهم المتعدّد الوسائط
يفهم كل من الصور والنص في آنٍ واحد. -
نموذج أساسي متعدد الاستخدامات
يمكن تحسينه على مجموعة كبيرة من المهام المتعلقة بالرؤية. -
الاستكشاف غير المباشر
تأتي مع نقطة تفتيش تم ضبطها على مزيج من المهام لاستخدام البحث الفوري.