VISION_AI

ปฏิวัติการนําทางสำหรับผู้ที่มีความบกพร่องทางสายตา

การทำงาน

Vision_AI เป็นระบบคำแนะนำด้วย AI ที่ออกแบบมาเพื่อให้ความคิดเห็นและคำแนะนำแบบเสียงแบบเรียลไทม์แก่ผู้พิการตาบอด โดยอิงตามสภาพแวดล้อมและความต้องการ ระบบใช้ Generative AI และคอมพิวเตอร์วิทัศน์ล้ำสมัยเพื่อจับภาพและประมวลผลรูปภาพและเสียงจากสภาพแวดล้อมเพื่อมอบความช่วยเหลือที่ครอบคลุม กระบวนการอัตโนมัตินี้ประกอบด้วยการตรวจจับและหลีกเลี่ยงสิ่งกีดขวางแบบเรียลไทม์ และการผสานรวมกับอุปกรณ์ที่สวมใส่ได้ ซึ่งช่วยให้คนตาบอดเดินทางได้อย่างอิสระและปลอดภัยไปพร้อมกับเข้าถึงข้อมูลและบริการต่างๆ ได้ง่ายขึ้น สแต็กเทคโนโลยี:
- **Generative AI (GEMINI) สําหรับการประมวลผลภาพ**
- **HTML/CSS**
- **Depth Sensing API, Speech Recognition APIs, Text-to-Speech Libraries**
- **Firebase**
- **การผสานรวมไม้เท้าสำหรับคนตาบอดโดยใช้โมดูล ESP32**
- **การผสานรวมกับแว่นอัจฉริยะ**
**วิธีที่เราใช้ GEMINI API:**
Gemini API ช่วยให้สตรีมข้อมูลจากเซ็นเซอร์จากโมดูล LiDAR และกล้องไปยังหน่วยประมวลผล AI ได้อย่างต่อเนื่อง วิธีนี้ช่วยให้ VISION_AI มีสิทธิ์เข้าถึงข้อมูลสภาพแวดล้อมล่าสุดอยู่เสมอ ซึ่งช่วยให้สามารถวิเคราะห์และตอบสนองได้แบบเรียลไทม์
VISION_AI จะผสานรวม Generative AI ของ Google เพื่อการจดจําวัตถุและการอธิบายฉากได้อย่างราบรื่นผ่าน Gemini API Gemini API มอบฟังก์ชันการทำงานที่จำเป็นสำหรับการประมวลผลรูปภาพ เช่น การจับภาพ การเตรียมข้อมูลล่วงหน้า และการดึงข้อมูลองค์ประกอบ
กลไกการให้ฟีดแบ็ก:
VISION_AI ใช้ประโยชน์จากความสามารถของ Gemini API เพื่อส่งเสียงและสัมผัสที่ตอบสนองต่อผู้ใช้ได้ทันที

สร้างขึ้นด้วย

เว็บ/Chrome
Firebase

ทีม

โดย

VISION_AI

จาก

อินเดีย