PaliGemma

تم إطلاق Gemma 4 مع إمكانية إدخال النصوص والصوت والصور، بالإضافة إلى قدرة استيعاب طويلة تصل إلى 256 ألف رمز مميّز. مزيد من المعلومات

تستخدم Google تكنولوجيا الذكاء الاصطناعي لترجمة المحتوى إلى لغتك المفضّلة، وقد تتضمّن بعض الأخطاء.

‫PaliGemma 2 وPaliGemma هما نماذج لغوية مرئية (VLM) خفيفة الوزن ومفتوحة، مستوحاة من PaLI-3، وتستند إلى مكوّنات مفتوحة مثل نموذج الرؤية SigLIP ونموذج اللغة Gemma. تتعامل خدمة PaliGemma مع الصور والنصوص كإدخالات ويمكنها الإجابة عن أسئلة حول الصور مع تقديم تفاصيل وسياق، ما يعني أنّه يمكن لخدمة PaliGemma إجراء تحليل أعمق لكلمات الصور وتقديم إحصاءات مفيدة، مثل ترجمة الصور والفيديوهات القصيرة، ورصد الأجسام، وقراءة النصوص المضمّنة في الصور.

تتوفّر PaliGemma 2 بثلاثة أحجام للمَعلمات، وهي 3 مليار و10 مليار و28 مليار، استنادًا إلى نماذج Gemma 2 2 مليار و9 مليار و27 مليار، على التوالي. تتوفّر طُرز PaliGemma الأصلية بالحجم 3B. لمزيد من المعلومات عن أنواع نماذج Gemma، يُرجى الاطّلاع على قائمة نماذج Gemma. تتيح أنواع طُرز PaliGemma درجات دقة مختلفة للبكسل في مدخلات الصور، بما في ذلك 224 × 224 و448 × 448 و896 × 896 بكسل.

يمكنك الاطّلاع على نماذج PaliGemma وتنزيلها من المواقع الإلكترونية التالية:

نزِّل البيانات من Kaggle.
تنزيل من وجه ودود

تتوفّر ثلاث فئات من نماذج PaliGemma:

PaliGemma PT: نماذج مدرَّبة مسبقًا للأغراض العامة يمكن ضبطها بدقّة في مجموعة متنوعة من المهام
PaliGemma FT: نماذج مخصّصة للأبحاث تم تحسينها استنادًا إلى مجموعات بيانات بحثية محدّدة
مزيج PaliGemma: نماذج تم ضبطها على مجموعة من المهام التي يمكن استخدامها بدون أي إعدادات مسبقة لحالات الاستخدام الشائعة

تشمل المزايا الرئيسية ما يلي:

الإمكانات المتعددة الوسائط

معالجة كل من الصور والمدخلات النصية في الوقت نفسه
نموذج أساسي متعدد الاستخدامات

يمكن تحسينه على مجموعة كبيرة من المهام المتعلقة بالرؤية.
الاستكشاف غير المباشر

يتضمّن نقطة تفتيش تم تحسينها على مجموعة من المهام لاستخدامها في الأبحاث فورًا.

PaliGemma

الإمكانات المتعددة الوسائط

نموذج أساسي متعدد الاستخدامات

الاستكشاف غير المباشر

مزيد من المعلومات

التنفيذ في Colab

البث المباشر في Colab

عرض على Kaggle