PaliGemma

PaliGemma هو نموذج بسيط مستند إلى تقنية الرؤية (VLM) مستوحى من PaLI-3، ويستند إلى مكونات مفتوحة، مثل نموذج رؤية SigLIP ونموذج جيما اللغوي. تستخدم PaliGemma الصور والنصوص كمدخلات ويمكنها الإجابة عن الأسئلة المتعلقة بالصور مع توفير التفاصيل والسياق، ما يعني أنّه بإمكان PaliGemma إجراء تحليل أكثر تفصيلاً للصور وتقديم إحصاءات مفيدة، مثل إضافة شرح للصور والفيديوهات القصيرة، والتعرّف على العناصر، وقراءة النصوص المضمَّنة في الصور.

هناك مجموعتان من نماذج PaliGemma، مجموعة للأغراض العامة ومجموعة البحث الموجهة نحو البحث:

  • PaliGemma - نماذج مُدرَّبة مسبقًا للأغراض العامة ويمكن تحسينها في مجموعة متنوعة من المهام.
  • PaliGemma-FT: هي نماذج موجّهة نحو البحث يتم تحسينها استنادًا إلى مجموعات بيانات بحثية معيّنة.

تشمل المزايا الرئيسية ما يلي:

  • يفهم كل من الصور والنص في آنٍ واحد.
  • يمكن تحسينه على مجموعة كبيرة من المهام المتعلقة بالرؤية.
  • تأتي مع نقطة تفتيش تم ضبطها على مزيج من المهام لاستخدام البحث الفوري.

مزيد من المعلومات

تحتوي بطاقة نموذج PaliGemma على معلومات تفصيلية حول النموذج، ومعلومات التنفيذ، ومعلومات التقييم، واستخدام النموذج والقيود المفروضة عليه، وغير ذلك.
عرض المزيد من التعليمات البرمجية ودفاتر Colab والمعلومات والمناقشات حول PaliGemma على Kaggle.
شغِّل مثالاً عمليًا لضبط PaliGemma باستخدام JAX في Colab.