VISION_AI
दृष्टिबाधित लोगों के लिए नेविगेशन की सुविधा को बेहतर बनाना.
यह क्या करता है
Vision_AI, एआई (AI) से मिलने वाली गाइडेंस का एक सिस्टम है. इसे ऐसे लोगों के लिए बनाया गया है जो अंधे हैं. यह सिस्टम, उनके आस-पास की चीज़ों और ज़रूरतों के आधार पर, रीयल-टाइम में ऑडियो फ़ीडबैक और निर्देश देता है. यह सिस्टम, बेहतरीन जनरेटिव एआई और कंप्यूटर विज़न का इस्तेमाल करके, आस-पास की इमेज और आवाज़ों को कैप्चर और प्रोसेस करता है. इससे, यह आपको बेहतर तरीके से मदद कर पाता है. अपने-आप काम करने वाली इस प्रोसेस में, रीयल-टाइम में रुकावटों का पता लगाना और उनसे बचना शामिल है. साथ ही, इसमें पहने जाने वाले डिवाइसों के साथ इंटिग्रेशन भी शामिल है. इससे, नेत्रहीन लोग आसानी से जानकारी और सेवाओं को ऐक्सेस करते हुए, स्वतंत्र और सुरक्षित तरीके से यात्रा कर सकते हैं. टेक्नोलॉजी स्टैक:
- **इमेज प्रोसेसिंग के लिए जनरेटिव एआई (GEMINI)**
- **एचटीएमएल/सीएसएस**
- **डेप्थ सेंसिंग एपीआई, बोली पहचानने वाले एपीआई, टेक्स्ट-टू-स्पीच लाइब्रेरी**
- **Firebase**
- **ESP32 मॉड्यूल का इस्तेमाल करके ब्लाइंड स्टिक इंटिग्रेशन**
- **स्मार्ट ग्लास के साथ इंटिग्रेशन**
**हमने GEMINI API का इस्तेमाल कैसे किया:**
Gemini API, LiDAR और कैमरा मॉड्यूल से एआई प्रोसेसिंग यूनिट तक सेंसर डेटा को लगातार स्ट्रीम करने की सुविधा देता है. इससे यह पक्का होता है कि VISION_AI के पास हमेशा पर्यावरण की अप-टू-डेट जानकारी का ऐक्सेस हो. इससे रीयल-टाइम में विश्लेषण और जवाब देने में मदद मिलती है.
Gemini API की मदद से, VISION_AI, ऑब्जेक्ट की पहचान करने और सीन की जानकारी देने के लिए, Google के जनरेटिव एआई को आसानी से इंटिग्रेट करता है. Gemini API, इमेज प्रोसेसिंग के लिए ज़रूरी सुविधाएं उपलब्ध कराता है. जैसे, इमेज कैप्चर करना, प्रीप्रोसेसिंग करना, और फ़ीचर निकालना
सुझाव/राय देने या शिकायत करने के तरीके:
Gemini API की सुविधाओं का फ़ायदा उठाकर, VISION_AI उपयोगकर्ता को तुरंत ऑडियो और टैक्टाइल फ़ीडबैक देता है.
इनकी मदद से बनाया गया
- वेब/Chrome
- Firebase
टीम
इन्होंने बदलाव किया है
VISION_AI
इन्होंने भेजा
भारत