VISION_AI
ثورة في التنقّل لذوي العجز البصري
وظيفتها
Vision_AI هو نظام إرشادات مستند إلى الذكاء الاصطناعي (AI) مصمّم لتزويد الأشخاص المكفوفين بملاحظات وتعليمات صوتية في الوقت الفعلي استنادًا إلى محيطهم واحتياجاتهم. باستخدام تقنيات الذكاء الاصطناعي التوليدي والرؤية الحاسوبية المتطوّرة، يلتقط النظام الصور والأصوات من البيئة ويعالجها لتقديم مساعدة شاملة. تشمل العملية المبرمَجة رصد العوائق في الوقت الفعلي وتجنُّبها، والدمج مع الأجهزة القابلة للارتداء، ما يتيح للمكفوفين التنقّل بشكل مستقل وآمن مع الوصول إلى المعلومات والخدمات بسهولة أكبر. حِزمة التكنولوجيا:
- **الذكاء الاصطناعي التوليدي (GEMINI) لمعالجة الصور**
- **HTML/CSS**
- **واجهة برمجة التطبيقات لميزة "الاستشعار عن بُعد" وواجهات برمجة التطبيقات لميزة "التعرّف على الكلام" ومكتبات تحويل النص إلى كلام**
- **Firebase**
- **دمج عصا المكفوفين باستخدام وحدة ESP32**
- **الدمج مع النظارات الذكية**
**كيفية استخدامنا لواجهة برمجة التطبيقات GEMINI API:**
تتيح واجهة برمجة التطبيقات Gemini API بث بيانات الاستشعار بشكل مستمر من وحدات تكنولوجيات الاستشعار عن بُعد والكاميرا إلى وحدة معالجة الذكاء الاصطناعي. يضمن ذلك أنّه يمكن لـ VISION_AI الوصول دائمًا إلى أحدث المعلومات البيئية، ما يتيح إجراء التحليل والاستجابة في الوقت الفعلي.
من خلال Gemini API، يدمج VISION_AI تكنولوجيات الذكاء الاصطناعي التوليدي من Google بسلاسة للتعرّف على الأجسام ووصف المشهد. توفّر Gemini API وظائف أساسية لمعالجة الصور، مثل التقاط الصور والمعالجة المُسبَقة واستخراج العناصر.
آليات تقديم الملاحظات والآراء:
من خلال الاستفادة من إمكانات Gemini API، تقدّم VISION_AI ملاحظات وآراء فورية للمستخدمين من خلال السمع واللمس.
تم إنشاؤه باستخدام
- الويب/Chrome
- Firebase
الفريق
من
VISION_AI
من
الهند