VISION_AI
दृष्टिबाधित लोगों के लिए नेविगेशन की सुविधा को बेहतर बनाना.
यह क्या करता है
Vision_AI, एआई (AI) पर आधारित एक गाइडेंस सिस्टम है. इसे ऐसे डिज़ाइन किया गया है कि यह अंधे लोगों को उनके आस-पास की चीज़ों और ज़रूरतों के आधार पर, रीयल-टाइम में ऑडियो फ़ीडबैक और निर्देश दे सके. यह सिस्टम, बेहतरीन जनरेटिव एआई और कंप्यूटर विज़न का इस्तेमाल करके, आस-पास की इमेज और आवाज़ों को कैप्चर और प्रोसेस करता है. इससे, यह आपको बेहतर तरीके से मदद कर पाता है. अपने-आप काम करने वाली इस प्रोसेस में, रीयल-टाइम में रुकावटों का पता लगाना और उनसे बचना शामिल है. साथ ही, इसमें पहने जाने वाले डिवाइसों के साथ इंटिग्रेशन भी शामिल है. इससे, अंधे लोग आसानी से जानकारी और सेवाओं को ऐक्सेस करते हुए, स्वतंत्र और सुरक्षित तरीके से यात्रा कर सकते हैं. टेक्नोलॉजी स्टैक:
- **इमेज प्रोसेसिंग के लिए जनरेटिव एआई (GEMINI)**
- **एचटीएमएल/सीएसएस**
- **डेप्थ सेंसिंग एपीआई, बोली पहचानने वाले एपीआई, टेक्स्ट-टू-स्पीच लाइब्रेरी**
- **Firebase**
- **ESP32 मॉड्यूल का इस्तेमाल करके ब्लाइंड स्टिक इंटिग्रेशन**
- **स्मार्ट ग्लास के साथ इंटिग्रेशन**
**हमने GEMINI API का इस्तेमाल कैसे किया:**
Gemini API, LiDAR और कैमरा मॉड्यूल से एआई प्रोसेसिंग यूनिट तक सेंसर डेटा को लगातार स्ट्रीम करने की सुविधा देता है. इससे यह पक्का होता है कि VISION_AI के पास हमेशा, आस-पास के वातावरण की अप-टू-डेट जानकारी का ऐक्सेस होता है. इससे रीयल-टाइम में विश्लेषण और जवाब देने में मदद मिलती है.
Gemini API की मदद से, VISION_AI, ऑब्जेक्ट की पहचान करने और सीन की जानकारी देने के लिए, Google के जनरेटिव एआई को आसानी से इंटिग्रेट करता है. Gemini API, इमेज प्रोसेसिंग के लिए ज़रूरी सुविधाएं उपलब्ध कराता है. जैसे, इमेज कैप्चर करना, पहले से प्रोसेस करना, और सुविधाएं निकालना
सुझाव/राय देने या शिकायत करने के तरीके:
Gemini API की सुविधाओं का फ़ायदा उठाकर, VISION_AI उपयोगकर्ता को तुरंत सुनने और छूने से जुड़ा सुझाव/राय देता है या शिकायत करता है.
इनका इस्तेमाल करके बनाया गया
- वेब/Chrome
- Firebase
टीम
इन्होंने बदलाव किया है
VISION_AI
शुरू होने का समय
भारत