Roboflow تُحسِّن الرؤية الحاسوبية باستخدام PaliGemma 2
تم إطلاق Roboflow في عام 2020 بهدف تحسين تكنولوجيات الرؤية الحاسوبية، ما يتيح للآلات والكمبيوتر إدراك الصور والفيديوهات وخلاصات الكاميرا وتفسيرها، تمامًا مثل الرؤية البشرية.
للمساعدة في تحقيق هدفها، أنشأت Roboflow مجموعة جديدة من الأدوات لإنشاء سير عمل عالي الجودة لتكنولوجيات الرؤية الحاسوبية باستخدام PaliGemma، وهو نموذج اللغة والرؤية (VLM) في Gemma، كأحد النماذج الأساسية. أصبح PaliGemma 2 الآن مكوّنًا أساسيًا في مجموعة أدوات Roboflow، وهو أحد النماذج الأكثر استخدامًا على منصتها. وقد ساهم ذلك في مساعدة Roboflow على المساهمة بشكل كبير في تطوير النموذج.
التحدي
عمل مؤسسو Roboflow في البداية على إنشاء تطبيقات خاصة بهم لتكنولوجيات الرؤية الحاسوبية لتحسين طريقة تطبيق المطوّرين لتكنولوجيات الرؤية الحاسوبية على مشاكلهم. أثناء عملية التطوير، واجه الفريق صعوبة في إنشاء نماذج الرؤية الحاسوبية ونشر التطبيقات المستندة إليها. كانت العملية تفتقر إلى بنية واضحة، وكانت تعتمد على الكثير من التجربة والخطأ، وكانت تتطلّب من الفريق الترميز أثناء التشغيل واستخدام بيانات التدريب الخاصة به. وقد واجهنا أيضًا تحديات في ما يتعلّق بمشاركة العمل بين الفِرق والمؤسسات، إذ لم تكن هناك استراتيجيات أو تقنيات متفق عليها لتطوير تكنولوجيات الرؤية الحاسوبية. على الرغم من أنّ تكنولوجيات الرؤية الحاسوبية تتيح استخدامات لا حصر لها تقريبًا، كان عدد الأشخاص الذين يمكنهم استخدامها محدودًا نسبيًا.


الحل
سعى فريق Roboflow إلى تبسيط عملية إنشاء تطبيقات الرؤية الحاسوبية ووضع قواعد لها من خلال إنشاء سير عمل للمطوّرين ومجموعة أدوات تبسّط العملية لهم. تقدّم Roboflow الآن مجموعة شاملة من الخيارات لتطبيقات الرؤية الحاسوبية، بما في ذلك الوحدات الأساسية الجاهزة للاستخدام للحلول الجاهزة للنشر والأدوات المتقدّمة لإنشاء نماذج الرؤية الخاصة بك وتدريبها.
من أهم الأدوات في صندوق أدوات Roboflow هي القوة الهائلة التي تتمتع بها PaliGemma 2 3B. توفّر PaliGemma دقة وسرعة وأداءً وميزات فريدة رائدة في المجال، ما يجعلها أحد النماذج المفضّلة لدى عملاء Roboflow. ومن بين هذه الميزات الفريدة، أنّه يمكن تدريب PaliGemma وتشغيلها على الجهاز باستخدام البيانات التي تملكها الشركة، ما يتيح للمطوّرين إنشاء حلول مخصّصة وخاصة بدون الحاجة إلى مشاركة بياناتهم خارج نطاق شركتهم. هذه الميزة هي أحد العوامل التي تميّز PaliGemma عن منصّات إدارة المحتوى بالفيديو الأخرى، وفقًا لما قاله "ترافور لينك"، رئيس قسم التسويق في Roboflow. "تُعدّ نماذج المحاكاة الافتراضية المفتوحة إنجازًا تامًا لإنشاء تطبيقات متعددة الوسائط للمؤسسات".
بالإضافة إلى الأدوات ومسارات العمل، تسعى Roboflow إلى تحقيق مهمتها المتمثلة في "جعل العالم قابلاً للبرمجة" من خلال تقديم موارد تعليمية مجانية للمطوّرين. تعرض مدوّنة Roboflow خطوات تفصيلية حول العمل مع PaliGemma وأدوات معالجة الصور الأخرى، ويشارك مطوّروها باستمرار أدلة تعليمية تفصيلية على قنوات مثل X وYouTube، ما يساعد في تحسين عالم الرؤية الحاسوبية لجميع المطوّرين، حتى أولئك الذين لا يستخدمون منظومة Roboflow المتكاملة.
التأثير
في الوقت الحالي، لدى Roboflow أكثر من مليون مهندس يستخدمون مجموعات أدواتها، ما يساعد كبار خبراء المجال في تحسين أنشطتهم التجارية وتوفير الوقت والموارد القيّمة. على سبيل المثال، شركة BNSF Railway، وهي أكبر شركة للسكك الحديدية لنقل البضائع في الولايات المتحدة، استخدَمت Roboflow لإنشاء حلول لتكنولوجيات الرؤية الحاسوبية، مثل مراقبة المستودع في الوقت الفعلي، وتحسين عمليات فحص السلامة.
"من السهل تحقيق نتائج إيجابية باستخدام الذكاء الاصطناعي في بيئة مختبرية، ولكن يكمن التحدي الحقيقي في توسيع نطاق الحل على مستوى شبكة مثل شبكتنا بدون إيقاف العمليات اليومية. وتسمح لنا شراكتنا مع Roboflow بتحقيق ذلك".
175 ألف
النماذج المدربة مسبقًا المتوفّرة
مليون
مستخدمو حساب المطوّر
575 مليون
الصور المصنَّفة باستخدام Roboflow
الخطوات التالية
تواصل Roboflow توسيع مجموعة الأدوات والموارد المتاحة للمطوّرين من خلال تقديم منتجات جديدة وتعديلات واسعة النطاق على المنتجات الحالية. أطلق الفريق مؤخرًا إمكانية تصنيف بيانات نماذج الرؤية المتعدّدة الوسائط ومراجعتها باستخدام Roboflow Annotate، وبدأ أيضًا بطرح نماذج متعددة الوسائط ليتمكن المطوّرون من تنزيلها وتعديلها وتدريبها.
تعزّز هذه المبادرات التزام Roboflow بتطوير تكنولوجيات الرؤية الحاسوبية ومنح المطوّرين القدرة على إنشاء حلول مبتكرة باستخدام نماذج مثل PaliGemma. عندما سُئل الرئيس التنفيذي لشركة Roboflow، جوزيف نيلسون، عن مستقبل تكنولوجيات الرؤية الحاسوبية، قال: "أعتقد أنّ الذكاء الاصطناعي المرئي هو تكنولوجيا أساسية ستغيّر كل مجال. تمامًا مثل الطريقة التي يتعرّف بها البشر على العالم في المقام الأول من خلال حاسة البصر، سيحدث الشيء نفسه مع أجهزة الكمبيوتر والبرامج في حياتنا".