VISION_AI

Zrewolucjonizowanie nawigacji dla osób niedowidzących.

Działanie

Vision_AI to system AI do nawigacji, który zapewnia osobom niewidomym informacje zwrotne i instrukcje w czasie rzeczywistym na podstawie ich otoczenia i potrzeb. Korzystając z najnowocześniejszej generatywnej AI i rozpoznawania obrazów, system rejestruje i przetwarza obrazy oraz dźwięki z otoczenia, aby zapewnić kompleksową pomoc. Automatyczny proces obejmuje wykrywanie i omijanie przeszkód w czasie rzeczywistym oraz integrację z urządzeniami do noszenia, co umożliwia osobom niewidomym bezpieczne i niezależne poruszanie się oraz łatwiejszy dostęp do informacji i usług. Technologia:
- **Generative AI (GEMINI) DO PRZETWARZANIA OBRAZU**
- **HTML/CSS**
- **Interfejs API do wykrywania głębi, interfejsy API do rozpoznawania mowy, biblioteki do konwersji tekstu na mowę**
- **Firebase**
- **Integracja z Blind Stick za pomocą modułu ESP32**
- **Integracja ze Smart Glasses**
**JAK WYKORZYSTAŁEM INTERFEJS GEMINI API:**
Interfejs Gemini API umożliwia ciągły streaming danych z czujników z modułów LiDAR i kamer do jednostki przetwarzania AI. Dzięki temu VISION_AI ma zawsze dostęp do najnowszych informacji o środowisku, co umożliwia analizę i reakcję w czasie rzeczywistym.
Za pomocą interfejsu Gemini API VISION_AI płynnie integruje generatywną AI od Google do rozpoznawania obiektów i opisywania sceny. Interfejs Gemini API zapewnia podstawowe funkcje przetwarzania obrazu, takie jak przechwytywanie obrazu, wstępne przetwarzanie i wyodrębnianie cech.
Mechanizmy sprzężenia zwrotnego:
korzystając z możliwości interfejsu Gemini API, VISION_AI zapewnia użytkownikowi natychmiastowe sprzężenie zwrotne za pomocą dźwięku i wibracji.

Utworzone za pomocą

  • Sieć/Chrome
  • Firebase

Zespół

Autor:

VISION_AI

Od

Indie