Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

VISION_AI

시각장애인을 위한 혁신적인 내비게이션

기능

Vision_AI는 주변 환경과 니즈에 따라 맹인에게 실시간 오디오 피드백과 안내를 제공하도록 설계된 AI 안내 시스템입니다. 이 시스템은 최첨단 생성형 AI와 컴퓨터 비전을 활용하여 환경에서 이미지와 소리를 캡처하고 처리하여 포괄적인 지원을 제공합니다. 이 자동화 프로세스에는 실시간 장애물 감지 및 회피, 웨어러블 기기 통합이 포함되어 있어 맹인이 정보와 서비스에 더 쉽게 액세스하면서 독립적이고 안전하게 이동할 수 있습니다. 기술 스택:
- **이미지 처리를 위한 생성형 AI (GEMINI)**
- **HTML/CSS**
- **Depth Sensing API, Speech Recognition API, Text-to-Speech 라이브러리**
- **Firebase**
- **ESP32 모듈을 사용한 맹인 지팡이 통합**
- **스마트 안경 통합**
**GEMINI API 사용 방법:**
Gemini API를 사용하면 LiDAR 및 카메라 모듈에서 AI 처리 장치로 센서 데이터를 연속 스트리밍할 수 있습니다. 이렇게 하면 VISION_AI가 항상 최신 환경 정보에 액세스할 수 있으므로 실시간 분석 및 응답이 가능합니다.
Gemini API를 통해 VISION_AI는 객체 인식 및 장면 설명을 위해 Google의 생성형 AI를 원활하게 통합합니다. Gemini API는 이미지 캡처, 사전 처리, 특징 추출과 같은 이미지 처리에 필수적인 기능을 제공합니다.
피드백 메커니즘:
Gemini API의 기능을 활용하여 VISION_AI는 사용자에게 즉각적인 청각적 및 촉각적 피드백을 제공합니다.

구성용 제품

웹/Chrome
Firebase

팀

작성자:

VISION_AI

From

인도