VISION_AI
Zrewolucjonizowanie nawigacji dla osób niedowidzących.
Działanie
Vision_AI to system AI do nawigacji, który zapewnia osobom niewidomym informacje zwrotne i instrukcje w czasie rzeczywistym na podstawie ich otoczenia i potrzeb. Korzystając z najnowocześniejszej generatywnej AI i rozpoznawania obrazów, system rejestruje i przetwarza obrazy oraz dźwięki z otoczenia, aby zapewnić kompleksową pomoc. Automatyczny proces obejmuje wykrywanie i omijanie przeszkód w czasie rzeczywistym oraz integrację z urządzeniami do noszenia, co umożliwia osobom niewidomym bezpieczne i niezależne poruszanie się oraz łatwiejszy dostęp do informacji i usług. Technologia:
- **Generatywna AI (GEMINI) DO PRZETWARZANIA OBRAZU**
- **HTML/CSS**
- **Interfejs API wykrywania głębi, interfejsy API rozpoznawania mowy, biblioteki konwersji tekstu na mowę**
- **Firebase**
- **Integracja z Blind Stick za pomocą modułu ESP32**
- **Integracja ze Smart Glasses**
**JAK WYKORZYSTAJEMY INTERFEJS GEMINI API:**
Interfejs Gemini API umożliwia ciągły streaming danych z czujników z modułów LiDAR i kamer do jednostki przetwarzania AI. Dzięki temu VISION_AI ma zawsze dostęp do najnowszych informacji o środowisku, co umożliwia analizę i reakcję w czasie rzeczywistym.
Dzięki interfejsowi Gemini API VISION_AI płynnie integruje generatywną AI od Google do rozpoznawania obiektów i opisywania sceny. Interfejs Gemini API zapewnia podstawowe funkcje przetwarzania obrazu, takie jak przechwytywanie obrazu, wstępne przetwarzanie i wyodrębnianie cech.
Mechanizmy informacji zwrotnej:
korzystając z możliwości interfejsu Gemini API, VISION_AI zapewnia użytkownikowi natychmiastową informację zwrotną w formie dźwięku i wibracji.
Wytworzono za pomocą
- Sieć/Chrome
- Firebase
Zespół
Autor:
VISION_AI
Z
Indie