VISION_AI

ثورة في التنقّل لذوي العجز البصري

وظيفتها

‫Vision_AI هو نظام إرشادات مستند إلى الذكاء الاصطناعي (AI) مصمّم لتزويد الأشخاص المكفوفين بملاحظات وتعليمات صوتية في الوقت الفعلي استنادًا إلى محيطهم واحتياجاتهم. باستخدام تقنيات الذكاء الاصطناعي التوليدي والرؤية الحاسوبية المتطوّرة، يلتقط النظام الصور والأصوات من البيئة ويعالجها لتقديم مساعدة شاملة. تشمل العملية المبرمَجة رصد العوائق وتجنُّبها في الوقت الفعلي، والدمج مع الأجهزة القابلة للارتداء، ما يتيح للمكفوفين التنقّل بشكل مستقل وآمن مع الوصول إلى المعلومات والخدمات بسهولة أكبر. حِزمة التكنولوجيا:
- **الذكاء الاصطناعي التوليدي (GEMINI) لمعالجة الصور**
- **HTML/CSS**
- **واجهة برمجة التطبيقات لميزة "الاستشعار عن بُعد" وواجهات برمجة التطبيقات لميزة "التعرّف على الكلام" ومكتبات تحويل النص إلى كلام**
- **Firebase**
- **دمج عصا المكفوفين باستخدام وحدة ESP32**
- **الدمج مع النظارات الذكية**
**كيفية استخدامنا لواجهة برمجة التطبيقات GEMINI API:**
تتيح واجهة برمجة التطبيقات Gemini API بث بيانات المستشعرات بشكل مستمر من وحدات تكنولوجيات الاستشعار عن بُعد والكاميرا إلى وحدة معالجة الذكاء الاصطناعي. يضمن ذلك إمكانية وصول VISION_AI دائمًا إلى أحدث المعلومات البيئية، ما يتيح إجراء التحليل والاستجابة في الوقت الفعلي.
من خلال Gemini API، يدمج VISION_AI تكنولوجيات الذكاء الاصطناعي التوليدي من Google بسلاسة لميزة التعرّف على الأجسام ووصف المشهد. توفّر Gemini API وظائف أساسية لمعالجة الصور، مثل التقاط الصور والمعالجة المُسبَقة واستخراج العناصر.
آليات تقديم الملاحظات والآراء:
من خلال الاستفادة من إمكانات Gemini API، تقدّم VISION_AI ملاحظات وآراء فورية للمستخدمين من خلال السمع واللمس.

مصمَّم بالاستناد إلى

الويب/Chrome
Firebase

الفريق

من

VISION_AI

من

الهند