ভিশন_এআই হল একটি এআই গাইডেন্স সিস্টেম যা অন্ধ ব্যক্তিদের রিয়েল-টাইম অডিও ফিডব্যাক এবং তাদের পারিপার্শ্বিক অবস্থা এবং প্রয়োজনের উপর ভিত্তি করে নির্দেশনা প্রদান করার জন্য ডিজাইন করা হয়েছে। অত্যাধুনিক জেনারেটিভ এআই এবং কম্পিউটার ভিশন ব্যবহার করে, সিস্টেমটি ব্যাপক সহায়তা প্রদানের জন্য পরিবেশ থেকে ছবি এবং শব্দগুলি ক্যাপচার করে এবং প্রক্রিয়া করে। স্বয়ংক্রিয় প্রক্রিয়ার মধ্যে রয়েছে রিয়েল-টাইম বাধা সনাক্তকরণ এবং পরিহার, এবং পরিধানযোগ্য ডিভাইসগুলির সাথে একীকরণ, অন্ধ ব্যক্তিদের স্বাধীনভাবে এবং নিরাপদে ভ্রমণ করতে সক্ষম করে তথ্য এবং পরিষেবাগুলি আরও সহজে অ্যাক্সেস করার সময়। প্রযুক্তি স্ট্যাক: - **ইমেজ প্রসেসিংয়ের জন্য জেনারেটিভ এআই (জেমিনি)** - **HTML/CSS** - **ডেপথ সেন্সিং এপিআই, স্পিচ রিকগনিশন এপিআই, টেক্সট-টু-স্পিচ লাইব্রেরি** - **ফায়ারবেস** - **ইএসপি৩২ মডিউল ব্যবহার করে ব্লাইন্ড স্টিক ইন্টিগ্রেশন** - **স্মার্ট চশমার সাথে ইন্টিগ্রেশন** **আমরা কিভাবে GEMINI API ব্যবহার করি:** Gemini API LiDAR এবং ক্যামেরা মডিউল থেকে AI প্রক্রিয়াকরণ ইউনিটে সেন্সর ডেটার অবিচ্ছিন্ন স্ট্রিমিং সক্ষম করে। এটি নিশ্চিত করে যে VISION_AI সর্বদা সর্বশেষ পরিবেশগত তথ্যে অ্যাক্সেস রয়েছে, যা বাস্তব-সময় বিশ্লেষণ এবং প্রতিক্রিয়ার জন্য অনুমতি দেয়। Gemini API-এর মাধ্যমে, VISION_AI অবজেক্ট শনাক্তকরণ এবং দৃশ্যের বিবরণের জন্য Google-এর জেনারেটিভ এআইকে নির্বিঘ্নে সংহত করে। Gemini API ইমেজ প্রক্রিয়াকরণের জন্য প্রয়োজনীয় কার্যকারিতা প্রদান করে, যেমন ইমেজ ক্যাপচার, প্রিপ্রসেসিং এবং বৈশিষ্ট্য নিষ্কাশন প্রতিক্রিয়া প্রক্রিয়া: Gemini API-এর ক্ষমতাকে কাজে লাগিয়ে, VISION_AI ব্যবহারকারীকে তাৎক্ষণিক শ্রবণ ও স্পর্শকাতর প্রতিক্রিয়া প্রদান করে।
দিয়ে নির্মিত
ওয়েব/ক্রোম
ফায়ারবেস
দল
দ্বারা
VISION_AI
থেকে
ভারত
[[["সহজে বোঝা যায়","easyToUnderstand","thumb-up"],["আমার সমস্যার সমাধান হয়েছে","solvedMyProblem","thumb-up"],["অন্যান্য","otherUp","thumb-up"]],[["এতে আমার প্রয়োজনীয় তথ্য নেই","missingTheInformationINeed","thumb-down"],["খুব জটিল / অনেক ধাপ","tooComplicatedTooManySteps","thumb-down"],["পুরনো","outOfDate","thumb-down"],["অনুবাদ সংক্রান্ত সমস্যা","translationIssue","thumb-down"],["নমুনা / কোড সংক্রান্ত সমস্যা","samplesCodeIssue","thumb-down"],["অন্যান্য","otherDown","thumb-down"]],[],[],[],null,["# VISION_AI\n\n[More Apps](/competition/vote) \n\nVISION_AI\n=========\n\nRevolutionizing navigation for the visually impaired. \nVote \nVoted!\nWhat it does\n\nVision_AI is an AI guidance system designed to provide blind individuals with real-time audio feedback and instructions based on their surroundings and needs. Utilizing cutting-edge generative AI and computer vision, the system captures and processes images and sounds from the environment to offer comprehensive assistance. The automated process includes Real-Time Obstacle Detection and Avoidance, and Integration with Wearable Devices, enabling blind people to travel independently and safely while accessing information and services more easily. Technology Stack: \n- \\*\\*Generative AI (GEMINI) FOR IMAGE PROCESSING\\*\\* \n- \\*\\*HTML/CSS\\*\\* \n- \\*\\*Depth Sensing API, Speech Recognition APIs, Text-to-Speech Libraries\\*\\* \n- \\*\\*Firebase\\*\\* \n- \\*\\*Blind Stick Integration using ESP32 Module\\*\\* \n- \\*\\*Integration with Smart Glasses\\*\\* \n\\*\\*HOW WE USED GEMINI API:\\*\\* \nThe Gemini API enables continuous streaming of sensor data from the LiDAR and camera modules to the AI processing unit. This ensures that VISION_AI always has access to the latest environmental information, allowing for real-time analysis and response. \nThrough the Gemini API, VISION_AI seamlessly integrates Google's Generative AI for object recognition and scene description. The Gemini API provides essential functionalities for image processing, such as image capture, preprocessing, and feature extraction \nFeedback Mechanisms: \nLeveraging the capabilities of the Gemini API, VISION_AI delivers instantaneous auditory and tactile feedback to the user. \nBuilt with\n\n- Web/Chrome\n- Firebase \nTeam \nBy\n\nVISION_AI \nFrom\n\nIndia \n[](/competition/vote)"]]