تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
PaliGemma
PaliGemma هو نموذج لغة رؤية (VLM) خفيف ومفتوح مستوحى من
PaLI-3،
وتعتمد على المكونات المفتوحة مثل SigLIP
نموذج الرؤية ولغة Gemma
تأخذ PaliGemma كلاً من الصور والنصوص كمدخلات ويمكنها الإجابة عن الأسئلة حول
والصور ذات التفاصيل والسياق، مما يعني أن PaliGemma يمكن أن يقوم بإجراء تحليل أعمق
والصور وتوفر رؤى مفيدة، مثل شرح الصور ومقاطع الفيديو القصيرة،
ورصد الكائنات وقراءة النص المُضمَّن في الصور.
هناك مجموعتان من نماذج PaliGemma، وهي مجموعة أغراض عامة ومجموعة موجهة نحو البحث:
PaliGemma -
نماذج مدرَّبة مسبقًا للأغراض العامة يمكن تحسينها في مجموعة متنوعة من المهام.
PaliGemma-FT:
نماذج موجهة نحو البحث تم تحسينها استنادًا إلى مجموعات بيانات بحثية محددة.
تشمل المزايا الرئيسية ما يلي:
multiple_stop
الفهم المتعدّد الوسائط
يفهم كل من الصور والنص في آنٍ واحد.
build
نموذج أساسي متعدد الاستخدامات
يمكن تحسينه على مجموعة كبيرة من المهام المتعلقة بالرؤية.
explore
الاستكشاف غير المباشر
تأتي مع نقطة تفتيش تم ضبطها على مزيج من المهام لاستخدام البحث الفوري.