PaliGemma
PaliGemma هو نموذج بسيط مستند إلى تقنية الرؤية (VLM) مستوحى من PaLI-3، ويستند إلى مكونات مفتوحة، مثل نموذج رؤية SigLIP ونموذج جيما اللغوي. تستخدم PaliGemma الصور والنصوص كمدخلات ويمكنها الإجابة عن الأسئلة المتعلقة بالصور مع توفير التفاصيل والسياق، ما يعني أنّه بإمكان PaliGemma إجراء تحليل أكثر تفصيلاً للصور وتقديم إحصاءات مفيدة، مثل إضافة شرح للصور والفيديوهات القصيرة، والتعرّف على العناصر، وقراءة النصوص المضمَّنة في الصور.
هناك مجموعتان من نماذج PaliGemma، مجموعة للأغراض العامة ومجموعة البحث الموجهة نحو البحث:
- PaliGemma - نماذج مُدرَّبة مسبقًا للأغراض العامة ويمكن تحسينها في مجموعة متنوعة من المهام.
- PaliGemma-FT: هي نماذج موجّهة نحو البحث يتم تحسينها استنادًا إلى مجموعات بيانات بحثية معيّنة.
تشمل المزايا الرئيسية ما يلي:
-
الفهم المتعدّد الوسائط
يفهم كل من الصور والنص في آنٍ واحد. -
نموذج أساسي متعدد الاستخدامات
يمكن تحسينه على مجموعة كبيرة من المهام المتعلقة بالرؤية. -
الاستكشاف غير المباشر
تأتي مع نقطة تفتيش تم ضبطها على مزيج من المهام لاستخدام البحث الفوري.