VISION_AI

Revolutionäre Navigation für sehbehinderte Menschen.

Funktion

Vision_AI ist ein KI-Navigationssystem, das blinden Menschen Echtzeit-Audiofeedback und Anweisungen basierend auf ihrer Umgebung und ihren Bedürfnissen bietet. Mithilfe moderner generativer KI und Computer Vision erfasst und verarbeitet das System Bilder und Geräusche aus der Umgebung, um umfassende Unterstützung anzubieten. Der automatisierte Prozess umfasst die Echtzeiterkennung und -umgehung von Hindernissen sowie die Einbindung in tragbare Geräte. So können blinde Menschen unabhängig und sicher unterwegs sein und leichter auf Informationen und Dienstleistungen zugreifen. Technologie-Stack:
- **Generative AI (GEMINI) FÜR DIE BILDVERARBEITUNG**
- **HTML/CSS**
- **Depth Sensing API, Spracherkennungs-APIs, Text-to-Speech-Bibliotheken**
- **Firebase**
- **Integration des Blindenstocks mit ESP32-Modul**
- **Integration mit Smart Glasses**
**GEMINI API VERWENDET WIR SO:**
Die Gemini API ermöglicht das kontinuierliche Streaming von Sensordaten von den LiDAR- und Kameramodulen an die KI-Verarbeitungseinheit. So hat VISION_AI immer Zugriff auf die neuesten Umgebungsinformationen, was eine Echtzeitanalyse und -reaktion ermöglicht.
Über die Gemini API wird die generative KI von Google für die Objekterkennung und Szenenbeschreibung nahtlos in VISION_AI eingebunden. Die Gemini API bietet wichtige Funktionen für die Bildverarbeitung, z. B. Bildaufnahme, Vorverarbeitung und Merkmalsextraktion.
Feedbackmechanismen:
VISION_AI nutzt die Funktionen der Gemini API, um dem Nutzer sofortiges akustisches und haptisches Feedback zu geben.

Basis

Web/Chrome
Firebase

Team

Von

VISION_AI

Von

Indien