فهم الصور

يمكن لـ Gemma 4، وهو أحدث نموذج من عائلة Gemma، تنفيذ مجموعة واسعة من المهام المرئية اللغوية، مثل رصد العناصر والتعرّف البصري على الأحرف (OCR) والإجابة عن الأسئلة المرئية والتعليق على الصور والاستدلال على عدة صور. يتيح لك هذا الإطار أيضًا معالجة درجات الدقة المتغيرة، ما يسمح لك بتحقيق التوازن بين سرعة الاستنتاج ودقة النتائج.

يستكشف هذا القسم كيفية إعداد البيانات المرئية واستخدامها بفعالية في طلباتك.

البيانات المرئية

يمكن أن تتخذ البيانات المرئية أشكالاً ودقة متعددة. تعتمد تنسيقات الملفات المحدّدة المتوافقة (مثل JPEG وPNG) على إطار العمل الذي تختاره لتحويل بياناتك المرئية إلى موترات.

في ما يلي الاعتبارات الرئيسية عند إعداد البيانات المرئية لاستخدامها مع Gemma:

  • تكلفة الرموز المميزة: تستخدم كل صورة عادةً 256 رمزًا مميزًا، ولكن تختلف تكلفة الرموز المميزة الخاصة بصور PaliGemma حسب النموذج المحدّد.
  • درجة الدقة: تعتمد درجة الدقة التي يتم تفسيرها، أي عدد وحدات البكسل التي يتم ترميزها في الرموز المميزة ومعالجتها بواسطة النموذج، على إصدار Gemma الذي تستخدمه:
    • Gemma 4: دقة متغيرة استنادًا إلى ميزانية الرموز المميزة يمكنك الاختيار بين أحجام الميزانية التالية: 70 أو 140 أو 280 أو 560 أو 1120 رمزًا مميزًا، ويحدّد هذا الخيار حجم الصورة المدخلة التي سيتم تغيير حجمها ومعالجتها.
    • Gemma 3: (4B والإصدارات الأحدث) بدقة 896x896، مع خيارات التحريك والتكبير/التصغير للصور الأكبر حجمًا
    • Gemma 3n: درجة الدقة 256x256 أو 512x512 أو 768x768
    • ‫PaliGemma 2: درجة الدقة 224x224 أو 448x448 أو 896x896

تتم معالجة الصور ذات الدقة المنخفضة بشكل أسرع، ولكنها تلتقط تفاصيل مرئية أقل. لتحسين سرعة الاستدلال، يجب أن تهدف إلى تقديم بيانات مرئية تتطابق مع إحدى الدقّات المدمجة التي تم تفسيرها في نموذج Gemma الذي اخترته.

درجة الدقة المتغيرة وميزانيات الرموز المميزة

تتيح نماذج Gemma 4 إمكانية معالجة الصور بدرجات دقة مختلفة، ما يسمح لك بتخصيص الإدخال المرئي حسب مهمتك المحدّدة. على سبيل المثال، قد تختار دقة عالية لتحديد تفاصيل صغيرة في عملية رصد العناصر، بينما قد تكون الدقة المنخفضة أفضل لتحليل إطارات الفيديو الفردية بهدف تسريع المعالجة. في النهاية، تتيح لك هذه الميزة الموازنة بين سرعة الاستدلال ودقة التمثيل المرئي.

يمكنك إدارة هذه المفاضلة باستخدام ميزانية الرموز المميزة. تضع هذه الميزانية حدًا أقصى لعدد الرموز المرئية (المعروفة أيضًا باسم تضمينات الرموز المرئية) التي يمكن للنموذج إنشاؤها لصورة واحدة.

يمكنك اختيار ميزانية تتراوح بين 70 و1,120 رمزًا مميزًا:

  • الميزانيات المرتفعة (مثل 1120 رمزًا مميزًا): الحفاظ على دقة أعلى للصور يؤدي ذلك إلى إنشاء المزيد من الرقع التي يمكن للنموذج معالجتها، ما يجعلها مثالية لالتقاط التفاصيل الدقيقة والمعقدة.
  • الميزانيات المنخفضة (مثل 70 رمزًا مميزًا): يتم تقليل حجم الصورة، ما يؤدي إلى عدد أقل من الرقع. ويؤدي ذلك إلى تسريع أوقات الاستنتاج بشكل كبير.

طريقة عمل الميزانية تتحكّم ميزانية الرموز المميزة بشكل مباشر في حجم الصورة الذي يتم تغييره من خلال تحديد الحد الأقصى لعدد أجزاء الصورة الأولية. يُنشئ النظام تسعة أضعاف عدد التصحيحات التي حدّدتها في ميزانيتك. على سبيل المثال، تتيح ميزانية تبلغ 280 رمزًا مميزًا إنشاء ما يصل إلى 2,520 رقعة (280 × 9).

يظهر المضاعف 9 بسبب طريقة ضغط الرقع: أثناء المعالجة، يأخذ النموذج كل شبكة 3x3 من الرقع المتجاورة ويحسب متوسطها معًا لإنشاء تضمين واحد. وتصبح هذه التضمينات الموحّدة الرموز المرئية النهائية. نتيجةً لذلك، تؤدي ميزانية الرموز المميزة الأعلى إلى الحصول على المزيد من التضمينات النهائية، ما يسمح للنموذج باستخراج معلومات أكثر تفصيلاً من بياناتك المرئية.

الإجراءات التي يُنصح بها

في ما يلي بعض أفضل الممارسات التي يجب اتّباعها عند تقديم طلبات إلى Gemma باستخدام بيانات مرئية.

  • تحديد التفاصيل: إذا كانت لديك أي مهام محدّدة، قدِّم سياقًا وإرشادات كافية. بدلاً من "وصف هذه الصورة"، جرِّب "وصف المشهد في هذه الصورة مع التركيز على العلاقة بين الأشخاص والأشياء".

  • تحديد القيود: لتحقيق أسلوب أو نبرة معيّنة، احرص على تحديدها في طلبك. على سبيل المثال، بدلاً من طلب عام لكتابة قصة، اطلب من Gemma "كتابة قصة قصيرة حول هذه الصورة بأسلوب أفلام الجريمة".

  • التحسين التكراري: للحصول على الناتج المطلوب، غالبًا ما يكون من الضروري إجراء تجارب وتحسين الطلبات. ابدأ بطلب أساسي وأضِف إليه المزيد من التفاصيل تدريجيًا.

الإجراءات التي يجب تجنُّبها

في ما يلي بعض الأمور التي يجب تجنّبها عند تقديم طلب إلى Gemma باستخدام بيانات مرئية.

  • توقُّع أعداد دقيقة للأجسام الكثيفة للغاية: على الرغم من أنّ Gemma 4 تتفوّق في رصد الأجسام والتعرّف البصري على الأحرف، قد تقدّم تقريبًا للأعداد بدلاً من الأعداد الدقيقة للأجسام الكثيفة للغاية أو الصغيرة جدًا (مثل عدّ شفرات العشب الفردية). لتحقيق أفضل دقة في المهام المرئية، استخدِم ميزانية رموز أعلى.

  • الطلبات الغامضة أو غير الواضحة: بدلاً من الطلبات العامة مثل "إنشاء محتوى استنادًا إلى هذه الصورة"، قدِّم تعليمات محدّدة للحصول على النتائج المطلوبة. حدِّد بوضوح ما هو "شيء"، مثل قصيدة أو وصفة أو مقتطف الرمز.